Modelado predictivo: la única guía que necesitará

Aprenda todo lo que necesita saber sobre el modelado predictivo, desde su definición hasta su aplicación actual.

Definición ¿Qué es el modelado predictivo?

El modelado predictivo es un sistema que emplea datos y estadísticas para predecir resultados a partir de unos modelos de datos. Estos modelos se pueden utilizar para predicciones de todo tipo; desde resultados deportivos y audiencias televisivas hasta avances tecnológicos y ganancias empresariales.

El modelado predictivo se suele conocer también como:

Estos sinónimos suelen ser intercambiables. Sin embargo, el análisis predictivo se refiere casi siempre a las aplicaciones comerciales del modelado predictivo, mientras que este último se usa de manera más general o académica. De los términos señalados, “modelado predictivo” es el que más se usa, como se ilustra en la tabla de Tendencias de Google a continuación. El aprendizaje automático también se diferencia del modelado predictivo, y se describe como el uso de técnicas estadísticas que permiten crear modelos predictivos informatizados. En la práctica, el aprendizaje automático y el modelado predictivo se usan indistintamente. Sin embargo, el aprendizaje automático es una rama de la inteligencia artificial, que se refiere a la inteligencia de las máquinas.

Principalmente, utilizaremos el término “modelado predictivo” en este artículo, pero los términos modelado predictivo, análisis predictivo, analítica predictiva y aprendizaje automático se pueden usar de manera intercambiable.

Desde 2004, las búsquedas de aprendizaje automático son más populares que el análisis predictivo. El aprendizaje automático se ha hecho cada vez más popular en los últimos años.

Descripción general

El modelado predictivo es útil porque proporciona información precisa sobre cualquier pregunta y permite a los usuarios crear previsiones. Para mantener una ventaja competitiva es fundamental tener información detallada de los eventos y resultados futuros que desafíen nuestras presuposiciones.

Los profesionales del análisis en minería de datos suelen extraer datos de las siguientes fuentes para alimentar sus modelos predictivos:

Los líderes de análisis deben alinear las iniciativas de modelado predictivo con los objetivos estratégicos de la empresa. Por ejemplo, un fabricante de chips informáticos podría establecer como prioridad estratégica producir chips con el mayor número de transistores del sector de aquí a 2025. Los profesionales del análisis podrían crear un modelo predictivo que pronosticara el número necesario de transistores por chip para convertirse en líderes. Para ello, podrían cargar en el modelo datos de producto, geográficos, ventas y otros datos relacionados con las tendencias. Como fuentes adicionales se podrían incluir datos sobre los chips con mayor densidad de transistores, la demanda comercial de capacidad de computación y las alianzas estratégicas entre fabricantes de chips y fabricantes de hardware. Una vez puesta en marcha la iniciativa, los analistas pueden realizar análisis retrospectivos para evaluar la precisión de los modelos predictivos y el éxito de dicha iniciativa.

Los analistas deben organizar los datos con el fin de alinearlos a un modelo. Así, es posible crear informáticamente previsiones y resultados de las pruebas de hipótesis. Las herramientas de inteligencia de negocios proporcionan información detallada en forma de paneles, visualizaciones e informes. Es necesario establecer un proceso que garantice una mejora continua. Aspectos importantes a tener en cuenta para la integración de modelos predictivos en la práctica empresarial:

Modelado predictivo y análisis de datos

De los cuatro tipos de análisis de datos, el modelado predictivo está más relacionado con el análisis predictivo. Los cuatro tipos de análisis de datos son:

Análisis descriptivo

El análisis descriptivo describe los datos. Por ejemplo, una empresa de SaaS (software como servicio) vendió 2000 licencias en el segundo trimestre y 1000 licencias en el primer trimestre. El análisis descriptivo responde a la pregunta de cuántas licencias se vendieron en el primer trimestre frente al segundo.

Diagnostic Analytics

Diagnostic analytics is the why behind descriptive analytics. To use the previous example, diagnostic analytics takes data a step further. A data analyst can drill down into quarterly software license sales and determine sales and marketing efforts within each region to reference them against sales growth. They could also see if a sales increase was a result of high-performing salespeople or rising interest within a certain industry.

Análisis de diagnóstico

PEl análisis de diagnóstico es el porqué de la analítica descriptiva. Usando el ejemplo anterior, el análisis de diagnóstico lleva los datos un paso más allá. Un analista de datos puede desglosar las ventas trimestrales de licencias de software y determinar las iniciativas de ventas y marketing realizadas en cada región para compararlas con el crecimiento de las ventas. También puede deducir si el aumento en las ventas ha sido resultado de un buen equipo comercial o de un aumento de interés dentro de un determinado sector.

Análisis predictivos

El análisis predictivo utiliza técnicas como el aprendizaje automático y la minería de datos para determinar lo que podría suceder a continuación. No puede predecir el futuro, pero sí observar los datos existentes y determinar un resultado probable. Los analistas de datos pueden construir modelos predictivos una vez que tengan los datos suficientes para elaborar predicciones de resultados. El análisis predictivo difiere de la minería de datos en que esta última se centra en descubrir las relaciones ocultas entre las variables mientras que el primero aplica un modelo para determinar los resultados probables. Una empresa de SaaS podría modelar los datos históricos de ventas en función de los gastos de marketing en cada región para crear un modelo de predicción de sus ingresos futuros basados en dicho gasto.

Aplicaciones

ANÁLISIS DE RR. HH.

El modelado predictivo tiene muchos usos en el campo del análisis de recursos humanos, desde la contratación hasta la fidelización. Los profesionales de recursos humanos pueden usar modelos predictivos para tomar decisiones importantes en liderazgo estratégico en cuanto a la planificación de la plantilla, la gestión del rendimiento y otros aspectos.

El modelado predictivo puede ayudar a los profesionales de recursos humanos a anticiparse a muchos problemas clave. Estos son algunos usos comunes del modelado predictivo en el análisis de recursos humanos:

Las empresas suelen usar el PI (índice predictivo) para evaluar a los candidatos potenciales y a los empleados en términos interpersonales como dominio, extroversión, paciencia, formalidad, toma de decisiones y entusiasmo. El índice emplea una autoevaluación sin plazos de tiempo y aplica el modelado predictivo para encontrar al candidato más adecuado o identificar la capacidad de liderazgo dentro de una empresa.

Si un modelo predictivo es preciso, se dice que tiene validez predictiva. Por ejemplo, si un examen de selección puede predecir correctamente el futuro rendimiento laboral, tiene validez predictiva.

El modelado predictivo es fundamental para mantener la ventaja competitiva en recursos humanos. Cuando se cuenta con más información que la competencia, los líderes de RR. HH. pueden contratar constantemente a los mejores candidatos, identificar las necesidades de personal antes de que aparezcan, ascender a las personas adecuadas, conservar a los empleados de alto rendimiento y alinear los incentivos de forma adecuada, entre otros.

PREVENCIÓN DE LA PÉRDIDA DE CLIENTES

La prevención de la pérdida de clientes es un caso de uso común en el análisis de negocios para empresas B2B y B2C. En cualquier negocio es de vital importancia mantener contentos a los clientes. Si los clientes de confianza dejan de comprar los productos de una empresa, la compañía debe esforzarse más para reemplazar esos ingresos haciendo nuevos clientes o vendiendo más a los demás clientes. Además, los costes para conseguir clientes suelen ser relativamente altos, por lo que es más difícil lograr clientes nuevos que mantener a los actuales, haciendo que la pérdida de clientes sea un tema prioritario. Afortunadamente para las empresas se puede utilizar el modelado predictivo para evitar esta pérdida. Con datos suficientes, las empresas pueden crear modelos que identifiquen las predicciones más precisas sobre el desgaste de los clientes, como por ejemplo, sus comportamientos específicos, comunicaciones de atención al cliente, datos demográficos o predictores por segmentos. A partir de esta información, las empresas pueden evitar la fuga de clientes al garantizar una experiencia de calidad con ciertos grupos de clientes, corregir cualquier problema del producto o dar un tratamiento especial a los clientes que se muestren insatisfechos. Este ejemplo se puede aplicar a una amplia variedad de sectores y segmentos de productos, siempre y cuando la empresa tenga suficientes datos (de CRM o de otro tipo) para crear un modelo sólido y válido. El análisis predictivo puede aportar ganancias significativas al brindar a las empresas un modo de reducir la pérdida de clientes.

DIAGNÓSTICOS MÉDICOS

El diagnóstico médico es uno de los mejores ejemplos de modelado predictivo en el sector sanitario, que ya ha experimentado grandes cambios a raíz de él. Gracias a los millones de registros de datos cada año, la cantidad de datos disponibles en el campo médico es suficiente para crear modelos extremadamente precisos. Aunque el diagnóstico predictivo ya ha tenido un impacto significativo en este campo y continúa haciendo avances notorios, hay muchos casos de uso de modelado predictivo en el campo médico. Un ejemplo es el Q-Poc, una herramienta de diagnóstico diseñada por la compañía británica de dispositivos médicos QuantumMDx, que emplea el modelado predictivo para hacer diagnósticos en menos de 20 minutos. De ser ampliamente adoptados, estos dispositivos podrían revolucionar la prestación sanitaria de los profesionales en todo el mundo y mejorar aspectos como diagnósticos inexactos, tiempos de espera y otros. Otro uso del modelado predictivo en el campo de la salud es el diagnóstico de enfermedades raras. Por ejemplo, en 2016, IBM anunció su alianza con el Centro de enfermedades raras y no diagnosticadas del Hospital Universitario de Marburgo, en Alemania. A este centro llegan pacientes que han visto ya a varios médicos, algunos hasta a 40, en busca de profesionales especializados en enfermedades raras. Además de IBM, Google se ha asociado con varios hospitales británicos en proyectos similares. Mejorar el diagnóstico tanto en enfermedades raras como en la medicina en general podría, en el futuro, ayudar a millones de personas cada año.

Si bien algunos sistemas y dispositivos que utilizan algoritmos y modelado predictivo para el diagnóstico ya han superado a los profesionales médicos, parece poco probable que estos sean reemplazados por ordenadores. Sin embargo, un modelo de diagnóstico predictivo mejorado cambiaría la forma de trabajar de los médicos. Las tecnologías de lenguaje natural podrían aliviar su carga al reducir el tiempo requerido para la introducción y procesamiento de datos y las posteriores predicciones. Por lo tanto, el trabajo de los médicos podría alejarse del diagnóstico.

MANTENIMIENTO PREDICTIVO

Sin tener en cuenta las aplicaciones de ventas y marketing, muchos de los casos de uso del modelado predictivo giran en torno a la reducción de costes, que, en muchos sectores, es una fuente fundamental de ventaja competitiva. En empresas de fabricación, automoción, productos químicos especializados, bienes de consumo envasados, petróleo y gas y suministros públicos existe especial interés en las medidas de reducción de costes debido a su naturaleza altamente competitiva. Estos sectores también suelen necesitar de mucho capital, lo que significa que gran parte del dinero necesario para producir el producto final se invierte en equipos y costes de fábrica. El modelado predictivo puede ahorrar costes en el mantenimiento de estos recursos esenciales. Los modelos predictivos alimentados con datos sobre el uso de equipos, datos de vídeos de interior y datos de temperatura pueden emplearse para determinar cuándo necesitan mantenimiento las máquinas. Las empresas de estos sectores pueden ahorrar millones evitando fallos y reparaciones en sus equipos. Estas empresas pueden aprovechar los modelos predictivos para realizar el mantenimiento de forma proactiva.

VALOR DE CICLO DE VIDA DEL CLIENTE

Las ventas y el marketing cuentan con una gran variedad de potenciales casos de uso para el modelado predictivo. Uno de ellos es analizar y pronosticar el valor del ciclo de vida del cliente en una empresa. Ser capaz de pronosticar con precisión dicho valor es muy importante para cualquier negocio. Imagine poder predecir qué clientes gastarán más en sus tiendas en los próximos cinco o diez años. ¿No serían estos clientes los mejores a los que dirigirse con ofertas especiales, programas de fidelidad generosos o trato preferente? Afortunadamente para las empresas, el modelado predictivo puede proporcionar una importante información sobre el valor del ciclo de vida del cliente. Con suficientes datos relevantes, un modelo predictivo puede generar predicciones precisas sobre el valor del ciclo de vida de los clientes.

FINANZAS Y BANCA

Las instituciones financieras utilizan sistemas de detección de anomalías basados en modelos predictivos y aprendizaje automático para detectar transacciones fraudulentas. Estas empresas pueden buscar los patrones históricos de gastos en función de factores como la cantidad, el tiempo y la ubicación geográfica para determinar un patrón de comportamiento habitual de gasto. Si hay una anomalía, se notifica a la empresa y esta puede advertir al consumidor para que verifique la compra antes de que se realicen más transacciones en su cuenta.

OPTIMIZACIÓN LOGÍSTICA

Otra aplicación de la reducción de costes del modelado predictivo es la optimización logística. En sectores que requieren de una gran asistencia logística, como el del envío de mercancías, el modelado predictivo puede aligerar la planificación logística, realizar ajustes de ahorro y proporcionar retroalimentación en tiempo real a los empleados. Por ejemplo, los modelos predictivos pueden optimizar las rutas de los vehículos. Esto puede acortar la distancia total recorrida, ahorrar combustible y reducir los tiempos de entrega, lo cual contribuye a mejorar la satisfacción del cliente. En un caso concreto, una empresa de camiones del mercado europeo pudo reducir sus costes de combustible en un 15 % usando modelado predictivo. Los sensores recopilan datos sobre el rendimiento del vehículo y las acciones del conductor, y el modelo guía automáticamente al conductor hacia comportamientos de conducción óptimos, como el ajuste de la velocidad para optimizar el consumo de combustible. Las aplicaciones logísticas del modelado predictivo pueden tener un impacto significativo en los costes de combustible y mantenimiento de estos sectores.

DSS (SISTEMAS DE ASISTENCIA A LA TOMA DE DECISIONES)

Los sistemas de asistencia a la toma de decisiones son sistemas de información digital diseñados para organizar, compilar y presentar datos con el fin de facilitar la resolución de problemas y la toma de decisiones. Se utilizan en una amplia gama de aplicaciones, desde paneles de control financieros hasta mapas geoespaciales con superposiciones de datos. El modelado predictivo se usa en sistemas avanzados de asistencia a la toma de decisiones para proporcionar a los responsables una serie de resultados y la probabilidad de que se produzcan según los datos históricos. El DSS combinado con la funcionalidad de análisis visual puede acelerar el proceso de toma de decisiones, ya que suele ser más fácil para las personas comprender asociaciones complejas mediante representaciones visuales que con formatos de cuadrícula.

¿Qué tipos de modelos predictivos hay?

En términos generales, los modelos predictivos se dividen en dos campos: paramétricos y no paramétricos. Si bien estos términos pueden parecer jerga técnica, la diferencia esencial es que los modelos paramétricos hacen más suposiciones, y más específicas, sobre las características de la población utilizada para crear el modelo. En concreto, algunos tipos de modelos predictivos son:

Cada uno de estos tipos tiene un uso particular y responde a una pregunta específica o utiliza un determinado tipo de conjunto de datos. A pesar de las diferencias metodológicas y matemáticas entre los tipos de modelos, el objetivo general de todos ellos es similar: predecir resultados futuros o desconocidos basándose en datos pasados.

¿Cuáles son las ventajas del modelado predictivo?

A grandes rasgos, el modelado predictivo reduce significativamente los costes de previsión de resultados empresariales, factores ambientales, inteligencia competitiva y condiciones del mercado. El modelado predictivo puede aportar valor de muchas formas, como:

¿Cuáles son los mayores retos del modelado predictivo?

Los modelos y tecnologías predictivos prometen grandes beneficios, lo cual no quiere decir que estos beneficios sean fáciles de conseguir. De hecho, el modelado predictivo presenta muchos desafíos en la práctica. Entre ellos:

El futuro del modelado predictivo

El futuro del modelado predictivo está, sin duda, estrechamente vinculado a la inteligencia artificial. A medida que aumenta la potencia de cálculo, la recopilación de datos crece de manera exponencial, y nacen nuevas tecnologías y métodos. Por ello, los sistemas informáticos son los que soportan la mayor parte de la carga. La empresa global de consultoría de gestión McKinsey and Co. ha estudiado recientemente las tendencias futuras, algunas de las cuales se detallan a continuación.

Avances tecnológicos

Debido en parte a los recientes avances en la capacidad de cálculo y las cantidades de datos, las tecnologías de modelado predictivo han aumentado el impacto de los avances en innovación. Los algoritmos predictivos se están volviendo verdaderamente sofisticados en muchos campos, sobre todo en la visión informática, los juegos complejos y el lenguaje natural.

Cambios en el trabajo

Con ordenadores más inteligentes, el trabajo de los profesionales del modelado predictivo, al igual que en otras áreas, cambiará para adaptarse a la nueva tecnología predictiva. No es probable que los trabajos de modelado predictivo queden obsoletos, pero las tareas cambiarán para adaptarse a las nuevas características y capacidades tecnológicas predictivas, y los profesionales necesitarán adquirir nuevas habilidades para ejercer sus nuevas funciones.

Mitigación de riesgos

Los avances en la tecnología predictiva son prometedores por su valor comercial y científico, pero también requieren de mitigación del riesgo. Algunos de esos riesgos se encuentran en la privacidad y seguridad de los datos. Con los aumentos exponenciales del volumen de datos, también incrementa la necesidad de proteger los datos de hackers y mitigar otros problemas de privacidad. Además, los investigadores señalan los riesgos de integrar prejuicios explícitos o inconscientes a los modelos y algoritmos predictivos, un tema de gran importancia para legisladores y grandes empresas de tecnología.

Limitaciones del modelado predictivo

A pesar de sus numerosos y valiosos beneficios, es cierto que el modelado predictivo tiene sus limitaciones. A menos que se cumplan ciertas condiciones, el modelado predictivo podría no alcanzar todo su potencial. De hecho, si no se dan estas condiciones, los modelos predictivos pueden no proporcionar ningún valor respecto a los antiguos métodos o conocimientos convencionales. Es importante tener en cuenta estas limitaciones para rentabilizar al máximo las iniciativas de modelado predictivo. Según McKinsey and Co., que recientemente ha analizado casos de uso, creación de valor y limitaciones, estos son algunos de los desafíos:

Etiquetado de datos

Especialmente en aprendizaje automático, donde un ordenador construye un modelo predictivo, los datos se deben etiquetar y clasificar de manera adecuada. Este proceso puede ser impreciso, estar lleno de errores y convertirse en una actividad colosal. Sin embargo, es necesario para construir un modelo y, si no se puede completar un proceso de clasificación y etiquetado adecuados, el modelo predictivo resultante tendrá un rendimiento deficiente y adolecerá de problemas debido a una categorización incorrecta.

Obtención de enormes conjuntos de datos para entrenamiento

Para que los métodos estadísticos tengan éxito en la predicción de resultados, se debe cumplir con un principio básico: que la muestra sea suficientemente grande. Si un profesional del modelado predictivo no tiene suficientes datos para construir el modelo, este será sin duda deficiente. Por supuesto, los conjuntos de datos relativamente pequeños tienden a mostrar más variaciones o, en otras palabras, más ruido. En la actualidad, la cantidad de registros necesarios para alcanzar un buen rendimiento oscila de miles a millones de datos. Además del tamaño, los datos utilizados deben ser representativos de la población. Si la muestra es lo suficientemente grande, los datos deben tener variedad de registros, incluidos los casos únicos o infrecuentes, para perfeccionar el modelo en la medida de lo posible.

El problema de la explicabilidad

Cuantos más modelos y metodologías complejas y elaboradas se den, mayor será el desafío de desentramar los modelos para determinar por qué se tomó una decisión o se elaboró una predicción. A medida que los modelos obtienen más registros de datos o más variables, los factores que podrían explicar las predicciones se vuelven difusos, lo cual supone una limitación importante en algunos campos. En sectores o casos que necesitan de explicabilidad, como aquellos con consecuencias legales o reglamentarias significativas, esta necesidad de documentar los procesos y decisiones puede dificultar el uso de modelos complejos. Es probable que esta limitación lleve a buscar nuevas metodologías que puedan lidiar con grandes volúmenes de datos complejos y, a la vez, permitan mayor transparencia en la toma de decisiones.

Generalización del aprendizaje

La generalización se refiere a la capacidad del modelo para aplicarse de un caso de uso a otro. A diferencia del ser humano, los modelos tienden a luchar con la generalización, también conocida como validez externa. En general, cuando un modelo se construye para un caso en particular, no debe usarse para otro diferente. Si bien se están desarrollando métodos como el aprendizaje por transferencia, un enfoque que intenta remediar este problema, la generalización sigue siendo una limitación importante del modelado predictivo.

Parcialidad en datos y algoritmos

Aunque se trata más de un problema ético o filosófico que de uno técnico, algunos sostienen que los investigadores y profesionales que crean modelos predictivos deben tener cuidado al elegir qué datos usar y cuáles excluir. Debido a que los prejuicios históricos pueden ocultarse en el nivel más bajo de los datos, se debe tener mucho cuidado al tratar de abordar dichos prejuicios, o sus repercusiones podrían replicarse en el futuro gracias a los modelos predictivos.

Herramientas de Modelado Predictivo

Apache Hadoop

Reconocido en la industria tecnológica por su llamativo logotipo del elefante amarillo, Apache Hadoop, comúnmente conocido como Hadoop, es un conjunto de herramientas de software de código abierto diseñadas para ayudar a una red de ordenadores a trabajar juntos en tareas que involucran cantidades masivas de datos. Hadoop funciona principalmente como una herramienta de almacenamiento y procesamiento. La herramienta de procesamiento es un modelo de programación MapReduce. Hadoop también puede referirse a una serie de paquetes de software adicionales en el ecosistema de Apache Hadoop. Estos paquetes incluyen:

Hadoop se ha vuelto extremadamente útil e importante en el campo del modelado predictivo, especialmente en los modelos o problemas que requieren almacenamiento de big data. Los profesionales del modelado predictivo con conocimientos o experiencia en el ecosistema de Hadoop, especialmente MapReduce y paquetes como Apache Hive, pueden recibir una prima salarial por esos conocimientos.

R

R es un lenguaje de programación de código abierto para computación estadística y gráficos. Los analistas necesitarán habilidades técnicas para trabajar de manera eficiente con esta herramienta. Incluye capacidades como regresión lineal, modelado no lineal y pruebas de series de tiempo. Los casos de uso incluyen:

Python

Python es un lenguaje de programación de alto nivel creado para programación general. Si bien R se creó específicamente para estadísticas, Python supera a R en minería de datos, creación de imágenes y funcionalidades de flujo de datos. Es más versátil que R y se usa con frecuencia con otros programas. Python es, generalmente, más fácil de aprender que R y funciona mejor en la automatización de tareas.

Microstrategy

MicroStrategy is an enterprise analytics and mobility platform which includes R, Python, and Google Analytics integration. It has 60+ data source connectors, so analysts can gain insights by blending disparate data. This data can be output into data visualizations and dashboard reports to gain insights quickly, and can be easily shared throughout the organization. MicroStrategy also includes advanced analytics capabilities, including predictive analytics, with over 300 native analytics functions and open source and 3rd party statistical programs. Some examples include:

Desarrollo profesional en modelado predictivo

El modelado predictivo es un campo que crecerá enormemente en los próximos años debido a la explosión de datos, los avances tecnológicos y su capacidad comprobada para aportar valor. De hecho, en 2017 IBM pronosticó que la demanda de profesionales del análisis y la ciencia de datos crecería en un 15 % para 2020.

Si bien muchas empresas son conscientes de que necesitan aplicar modelado predictivo a sus negocios, en la actualidad hay pocos candidatos con las habilidades adecuadas. Por ello, las empresas ofrecen buenos salarios a los candidatos cualificados para alejarlos de sus competidores. Aunque el número de candidatos cualificados sigue aumentando, la demanda de tales profesionales crece a un ritmo mayor.

Empleos en Modelado Predictivo

Algunos puestos de trabajo comunes son, entre otros:

MODELADO PREDICTIVO: ¿QUÉ APTITUDES SE REQUIEREN?

¿Cuánto ganan los profesionales del modelado predictivo?

Los salarios varían según la trayectoria del candidato y las necesidades de la empresa, pero las habilidades en ciencia de datos se traducen en salarios más altos. Los salarios aumentan cuando los candidatos cuentan con conocimientos de MapReduce, Apache Hive y Apache Hadoop.

Data Scientist Starting Salary

Preguntas frecuentes

¿Qué es el análisis predictivo?
¿Un ejemplo de análisis predictivo?
¿Qué es un modelo de puntuación?
¿Cómo emplea el iPhone el modelado predictivo?
¿Qué es un modelo predictivo?
¿Por qué el análisis predictivo es importante?