Modelagem preditiva: o único guia necessário

Aprenda tudo o que você precisa saber sobre modelagem preditiva, desde sua definição até a aplicação moderna.

Definição: O que é modelagem preditiva?

A modelagem preditiva é um processo que usa dados e estatísticas para prever resultados com modelos de dados. Esses modelos podem ser usados para prever qualquer coisa, desde resultados esportivos e classificações de TV até avanços tecnológicos e lucros corporativos.

PA modelagem preditiva também é conhecida como:

Esses sinônimos são frequentemente usados de forma intercambiável. No entanto, a análise preditiva geralmente se refere a aplicações comerciais de modelagem preditiva, enquanto a modelagem preditiva é usada de maneira mais geral ou acadêmica. Dos termos, a modelagem preditiva é usada com mais frequência, o que é ilustrado na tabela do Google Trends abaixo. O aprendizado de máquina também é diferente da modelagem preditiva e é definido como o uso de técnicas estatísticas para permitir que um computador construa modelos preditivos. Na prática, o aprendizado de máquina e a modelagem preditiva são frequentemente usados de forma intercambiável. No entanto, o aprendizado de máquina é um ramo da inteligência artificial, que se refere à inteligência exibida pelas máquinas.

Usaremos principalmente o termo “modelagem preditiva” neste artigo, mas os termos modelagem preditiva, analítica preditiva, análise preditiva e aprendizado de máquina podem ser usados de forma intercambiável.

Desde 2004, as pesquisas por aprendizado de máquina têm sido mais populares do que a análise preditiva, e o aprendizado de máquina tem aumentado constantemente na popularidade de pesquisa nos últimos anos.

Visão geral

A modelagem preditiva é útil porque fornece informações precisas sobre qualquer pergunta e permite que os usuários criem previsões. Para manter uma vantagem competitiva, é essencial ter uma visão dos eventos e resultados futuros que desafiam as principais suposições.

Os profissionais de análise costumam usar dados das seguintes fontes para alimentar um modelo preditivo:

Os líderes de análise devem alinhar as iniciativas de modelagem preditiva aos objetivos estratégicos de uma organização. Por exemplo, um fabricante de chips de computador pode definir uma prioridade estratégica para produzir chips com o maior número de transistores no setor até 2025. Os profissionais de análise podem construir um modelo preditivo para prever o número de transistores por chip para se tornar um líder se alimentarem o produto modelo, a geografia, as vendas e outros dados de tendências relacionados. Fontes adicionais podem incluir dados sobre os chips com maior densidade de transistores, demanda comercial para capacidade computacional e parcerias estratégicas entre fabricantes de chips e fabricantes de hardware. Quando as iniciativas estiverem em movimento, os profissionais de análise podem realizar análises retrospectivas para avaliar a precisão dos modelos preditivos e o sucesso das iniciativas.

Os analistas devem organizar os dados para se alinharem a um modelo, para que os computadores possam criar previsões e saídas para testes de hipóteses. As ferramentas de BI fornecem informações na forma de dashboards, visualizações e relatórios. Um processo deve ser colocado em prática para garantir a melhoria contínua. Os pontos importantes a serem considerados ao integrar modelos preditivos às práticas de negócios, incluem:

Modelagem preditiva e análise de dados

Dos quatro tipos de análise de dados, a modelagem preditiva está mais relacionada à categoria de análise preditiva. Os quatro tipos de análise de dados são:

Análise descritiva

Análise descritiva descreve os dados. Por exemplo, uma empresa de software como serviço (SaaS) vendeu 2.000 licenças no segundo trimestre e 1.000 licenças no primeiro trimestre. A análise descritiva responde à questão de quantas licenças foram vendidas no primeiro trimestre em comparação ao segundo.

Análise diagnóstica

A análise diagnóstica é o motivo por trás da análise descritiva. Para usar o exemplo anterior, a análise diagnóstica leva os dados um passo adiante. Um analista de dados pode detalhar as vendas trimestrais de licenças de software e determinar os esforços de vendas e marketing dentro de cada região para fazer referência a eles em relação ao crescimento das vendas. Eles também puderam ver se um aumento de vendas foi resultado do esforço dos vendedores de alto desempenho ou o crescente interesse dentro de um determinado setor.

Análise preditiva

A análise preditiva utiliza técnicas como aprendizado de máquina e mineração de dados para prever o que pode acontecer a seguir. Nunca pode prever o futuro, mas pode analisar os dados existentes e determinar um resultado provável. Os analistas de dados podem criar modelos preditivos quando tiverem dados suficientes para fazer os resultados previstos. A análise preditiva difere da mineração de dados porque a última se concentra na descoberta dos relacionamentos ocultos entre as variáveis, enquanto a primeira aplica um modelo para determinar os resultados prováveis. Uma empresa de SaaS poderia modelar dados históricos de vendas em relação a despesas de marketing em cada região para criar um modelo de previsão para receita futura com base em gastos de marketing.

Análise prescritiva

A análise prescritiva dá o passo final e oferece uma recomendação baseada em um resultado previsto. Depois que um modelo preditivo estiver em vigor, ele poderá recomendar ações com base em dados históricos, fontes de dados externas e algoritmos de aprendizado de máquina.

Aplicações

ANÁLISE DE RH

A modelagem preditiva tem muitos usos no campo da análise de RH, desde a contratação até a retenção. Os profissionais de RH podem usar a modelagem preditiva para tomar decisões importantes para a liderança estratégica de RH em relação ao planejamento da força de trabalho, gerenciamento de desempenho e muito mais.

A modelagem preditiva pode ajudar os profissionais de RH a prever uma grande variedade de problemas importantes. Aqui estão alguns usos comuns de análise de RH da modelagem preditiva:

Os empregadores costumam usar o Índice preditivo (Predictive Index, PI) para avaliar potenciais candidatos e funcionários existentes quanto a fatores interpessoais, como dominância, extroversão, paciência, formalidade, tomada de decisão e entusiasmo. Ele utiliza uma autoavaliação não cronometrada e aplica a modelagem preditiva para encontrar o candidato mais adequado ou identificar a liderança dentro de uma empresa.

Se um modelo preditivo for preciso, diz-se que ele tem validade preditiva. Por exemplo, se um exame prévio para emprego puder prever corretamente o desempenho futuro do trabalho, ele terá validade preditiva.

A modelagem preditiva é uma maneira essencial de manter uma vantagem competitiva nos recursos humanos. Manter uma vantagem de informações sobre a concorrência pode permitir que a liderança de RH contrate continuamente os melhores candidatos, identifique as necessidades da força de trabalho antes que elas aconteçam, promova as pessoas certas, mantenha funcionários de alto desempenho, alinhe os incentivos adequadamente e muito mais.

PREVENÇÃO DE PERDA DE CLIENTES

A prevenção de perda de clientes é um caso de uso comum de análise de negócios para organizações B2B e B2C. Em qualquer negócio, manter os clientes atuais felizes é da maior importância. Se, repentinamente, clientes fiéis deixarem de comprar o produto de uma empresa, a empresa deve trabalhar arduamente para substituir essa receita, encontrando novos clientes ou vendendo mais a outros clientes existentes. Além disso, os custos de aquisição de clientes costumam ser relativamente altos, o que significa que os novos clientes são mais difíceis de encontrar do que os clientes anteriores ou atuais, tornando a prioridade do cliente ainda mais crítica. Felizmente para as empresas, a modelagem preditiva pode ser usada para evitar a perda de clientes. Com dados suficientes, as empresas podem produzir modelos para identificar os melhores preditores de desgaste com clientes, tais como comportamentos específicos de clientes, como comunicações de atendimento ao cliente, informações demográficas ou preditores de segmentos. Munidos com essas informações, as empresas podem agir para evitar a perda de clientes, garantindo a experiência de qualidade em determinados grupos de clientes, corrigindo qualquer característica problemática do produto ou dando tratamento especial aos clientes que exemplificam sinais de insatisfação. Este caso de uso pode ser aplicado a uma ampla variedade de setores e segmentos de produtos, desde que a empresa tenha dados suficientes - CRM ou outros - para criar um modelo robusto e válido. A análise preditiva pode adicionar um valor significativo ao resultado financeiro, dando às empresas um caminho para reduzir a perda de clientes.

DIAGNÓSTICO MÉDICO

O diagnóstico médico é um dos melhores exemplos de modelagem preditiva em saúde, que já experimentou grandes mudanças como resultado. Com milhões de registros de dados a cada ano, a quantidade de dados disponíveis no campo médico é suficiente para criar modelos extremamente precisos. Existem muitos casos de uso para modelagem preditiva no campo da medicina, mas o diagnóstico preditivo já teve um impacto significativo no campo e continua a fazer inovações dignas de nota regularmente. Um exemplo é o Q-Poc, uma ferramenta de diagnóstico produzida pela empresa de dispositivos médicos britânica QuantumMDx, que usa modelagem preditiva para obter diagnósticos em menos de 20 minutos. Se amplamente adotado, dispositivos como este podem revolucionar a forma como os profissionais prestam assistência médica em todo o mundo e abordam pontos problemáticos, como diagnósticos imprecisos, tempos de espera e muito mais. Outro uso de modelagem preditiva no espaço da saúde é o diagnóstico de doenças raras. Por exemplo, em 2016, a IBM anunciou uma parceria com o Centro de Doenças Não Diagnosticadas e Raras no Hospital Universitário de Marburg, na Alemanha. Lá, pacientes que viram vários médicos, alguns com até 40, buscam profissionais médicos especializados em doenças raras. Além da IBM, o Google fez parcerias com vários hospitais britânicos para projetos semelhantes. A melhoria do diagnóstico em doenças raras e medicina em geral poderia ajudar milhões de pessoas por ano no futuro.

Embora alguns sistemas e dispositivos que usam modelagem preditiva e algoritmos para alcançar um diagnóstico possam agora superar os profissionais médicos, parece improvável que os médicos sejam substituídos por computadores. No entanto, a melhoria na modelagem diagnóstica preditiva certamente mudará a maneira como os médicos trabalham. As tecnologias de linguagem natural podem aliviar o fardo dos profissionais médicos, reduzindo o tempo necessário para entrada e processamento de dados e previsões subsequentes. Assim, o trabalho dos médicos pode se afastar do diagnóstico como resultado.

MANUTENÇÃO PREDITIVA

Com exceção das aplicações de vendas e marketing, muitos dos casos de uso para modelagem preditiva giram em torno de iniciativas de redução de custos, que, em muitos setores, são uma fonte crítica de vantagem competitiva. Em negócios como manufatura, automóveis, especialidades químicas, bens de consumo embalados, petróleo, gás e serviços públicos, há um prêmio nas medidas de corte de custos devido à natureza altamente competitiva dos setores. Esses setores também tendem a ser intensivas em capital, o que significa que grande parte do dinheiro necessário para produzir o produto acabado é investido em equipamentos e custos de fábrica. A modelagem preditiva e suas ferramentas de análise podem revelar maneiras de economizar custos na manutenção desses recursos críticos. Modelos preditivos treinados com dados sobre o uso de equipamentos, dados de vídeo internos e dados de temperatura podem ser usados para determinar quando as máquinas precisam de manutenção. As empresas desses setores podem economizar milhões evitando o mau funcionamento de equipamentos e problemas maiores de reparo. Essas empresas podem utilizar modelos preditivos para realizar a manutenção proativamente.

VALOR VITALÍCIO DO CLIENTE

Vendas e marketing possuem uma ampla variedade de casos de uso em potencial para modelagem preditiva. Um desses casos de uso é analisar e prever o valor total do cliente ao longo da vida útil. Ser capaz de prever com precisão o valor vitalício do cliente é de grande importância para qualquer negócio. Imagine ser capaz de prever quais clientes gastarão mais em suas lojas nos próximos cinco ou dez anos. Esses clientes não seriam os melhores para segmentar com ofertas especiais, programas de fidelidade generosos ou tratamento especial? Felizmente para as empresas, a modelagem preditiva pode fornecer informações significativas sobre a questão do valor vitalício do cliente. Com dados relevantes suficientes, um modelo preditivo pode gerar previsões precisas para o valor vitalício dos clientes.

FINANÇAS E BANCOS

A detecção de anomalias baseada em modelos preditivos e aprendizado de máquina é usada por organizações financeiras para detectar transações fraudulentas. Essas organizações podem analisar os padrões históricos de gastos com base em fatores como quantidade, tempo e localização geográfica para determinar uma linha de base para o comportamento de gasto normal. Se houver uma anomalia, a organização é notificada e pode retransmitir o aviso ao consumidor para verificar a compra antes que transações adicionais possam ser feitas contra sua conta.

OTIMIZAÇÃO LOGÍSTICA

Outra aplicação de redução de custo da modelagem preditiva é a otimização logística. Em setores que exigem suporte logístico intensivo, como a entrega, a modelagem preditiva pode aliviar o fardo do planejamento de logística, fazer ajustes de economia de custos e fornecer feedback em tempo real aos funcionários. Por exemplo, modelos preditivos podem otimizar a rota que os veículos de entrega tomam. Isso pode reduzir a distância total percorrida, melhorar a eficiência de combustível e reduzir os tempos de entrega, o que pode fornecer um benefício para a satisfação do cliente. Em um caso, uma empresa de transporte de cargas centrada no mercado europeu foi capaz de reduzir seus custos de combustível em 15% usando modelagem preditiva. Os sensores coletam dados sobre o desempenho do veículo e as ações do motorista, e o modelo treina automaticamente o motorista sobre os comportamentos ideais de direção, incluindo como ajustar a velocidade para otimizar o consumo de combustível. Aplicações logísticas de modelagem preditiva podem ter um impacto significativo nos custos de combustível e na manutenção nesses tipos de setores.

SISTEMAS DE APOIO À DECISÃO (DECISION SUPPORT SYSTEMS, DSS)

Sistemas de apoio à decisão são sistemas de informação digital projetados para organizar, compilar e apresentar dados para os decisores para resolver problemas. Eles são usados em aplicações de grande escala, desde dashboards financeiros até mapas geoespaciais com sobreposições de dados. A modelagem preditiva é usada em sistemas avançados de apoio à decisão para fornecer os decisores uma série de possíveis resultados e a probabilidade de eles ocorrerem com base em dados históricos. DSS, combinado com um recurso de análise visual, pode acelerar o processo de tomada de decisões, pois geralmente é mais fácil para as pessoas aprenderem associações complexas por meio de representações visuais em vez de formatos de grade.

Quais são os tipos de modelos preditivos?

De um modo geral, os modelos preditivos se enquadram em dois campos: paramétricos e não paramétricos. Embora esses termos possam parecer um jargão técnico, a diferença essencial é que os modelos paramétricos fazem mais suposições e suposições mais específicas sobre as características da população usada na criação do modelo. Especificamente, alguns dos diferentes tipos de modelos preditivos são:

Cada um desses tipos tem um uso específico e responde a uma pergunta específica ou usa um determinado tipo de conjunto de dados. Apesar das diferenças metodológicas e matemáticas entre os tipos de modelo, o objetivo geral de cada um é semelhante: prever resultados futuros ou desconhecidos com base em dados sobre resultados passados.

Quais são os benefícios da modelagem preditiva?

Em sua essência, a modelagem preditiva reduz significativamente o custo necessário para as empresas preverem resultados de negócios, fatores ambientais, inteligência competitiva e condições de mercado. Aqui estão algumas maneiras pelas quais o uso de modelagem preditiva pode fornecer valor:

Quais são os maiores desafios da modelagem preditiva?

Os modelos e tecnologias preditivos prometem enormes benefícios, mas isso não significa que esses benefícios não apresentem problemas. De fato, a modelagem preditiva na prática apresenta vários desafios. Esses desafios incluem:

O futuro da modelagem preditiva

O futuro da modelagem preditiva está, sem dúvida, intimamente ligado à inteligência artificial. Conforme a capacidade de computação continua a aumentar, a coleta de dados aumenta exponencialmente e novas tecnologias e métodos nascem, os computadores suportarão o peso da carga quando se trata de criar modelos. A empresa global de consultoria de gerenciamento McKinsey and Co. estudou recentemente as tendências futuras, algumas das quais estão detalhadas abaixo.

Avanços tecnológicos

Devido parcialmente aos recentes avanços na capacidade de computação e nas quantidades de dados, as tecnologias de modelagem preditiva melhoraram o impacto de avanços regulares que merecem destaque. Algoritmos preditivos estão se tornando extremamente sofisticados em muitos campos, especialmente a visão computacional, a complexa linguagem natural e a linguagem das empresas futuras.

Mudanças no trabalho

Com computadores mais inteligentes, o trabalho dos profissionais de modelagem preditiva, assim como com outras ocupações, mudará para se adaptar à tecnologia preditiva recém-disponível. As pessoas que trabalham com modelagem preditiva provavelmente não se tornarão obsoletas, mas suas funções mudarão de uma maneira que complemente novos recursos e habilidades tecnológicas preditivas, e eles precisarão adquirir novas habilidades para se destacarem nessas novas funções.

Mitigação de riscos

Os avanços na tecnologia preditiva são extremamente promissores em termos de criação de valor comercial e científico, mas também exigem mitigação de riscos. Alguns desses riscos estão centrados na privacidade e segurança de dados. Com o aumento exponencial do volume de dados, a importância de proteger os dados contra hackers e mitigar outras preocupações com a privacidade também aumenta. Além disso, os pesquisadores apontam para o risco de conexões diretas e predisposições inconscientes sociais em modelos preditivos e algoritmos, uma questão que será de grande importância para os formuladores de políticas e grandes empresas de tecnologia.

As limitações da modelagem preditiva

Apesar de seus inúmeros benefícios de valor expressivo, a modelagem preditiva certamente tem suas limitações. A menos que certas condições sejam atendidas, a modelagem preditiva talvez não forneça a totalidade de seu valor potencial. Na verdade, se essas condições não forem atendidas, os modelos preditivos podem não fornecer valor nos métodos legados ou na sabedoria convencional. É importante considerar essas limitações para capturar o valor máximo de valor das iniciativas de modelagem preditiva. De acordo com a McKinsey and Co., que recentemente analisou casos de uso, criação de valor e limitações, aqui estão alguns dos desafios:

Rotulagem de dados

Especialmente em Aprendizado de Máquina, no qual um computador está construindo o modelo preditivo, os dados devem ser rotulados e categorizados adequadamente. Esse processo pode ser impreciso, cheio de erros e uma tarefa normalmente colossal. No entanto, é um componente necessário para a construção de um modelo e, se a classificação e a rotulagem adequadas não puderem ser concluídas, qualquer modelo preditivo produzido sofrerá de desempenho insatisfatório e problemas associados à categorização inadequada.

Como obter conjuntos de dados de treinamento massivo

Para que os métodos estatísticos sejam consistentemente bem-sucedidos na previsão dos resultados, um princípio básico precisa ser atendido: tamanho suficiente da amostra. Se um profissional de modelagem preditiva não tiver dados suficientes para construir o modelo, este uma vez produzido será influenciado indevidamente pelo ruído nos dados usados. É claro que conjuntos de dados relativamente pequenos tendem a exibir mais variações ou, em outras palavras, mais ruído. Atualmente, o número de registros necessários para atingir um desempenho de modelo suficientemente alto varia de milhares a milhões. Além do tamanho, os dados usados devem ser representativos da população-alvo. Se o tamanho da amostra for grande o suficiente, os dados devem ter uma grande variedade de registros, incluindo casos únicos ou ímpares, para refinar o modelo.

O problema da explicação

À medida que modelos e metodologias mais complexas e esotéricas se tornarem disponíveis, muitas vezes será um grande desafio desvendar modelos para determinar porque uma determinada decisão ou previsão foi tomada. À medida que os modelos absorvem registros de dados ou mais variáveis, fatores que poderiam explicar as previsões se tornam obscuros, uma limitação significativa em alguns campos. Em setores ou casos de uso que exigem explicação, como ambientes que têm consequências legais ou regulatórias significativas, a necessidade de documentar processos e decisões pode impedir o uso de modelos complexos. Essa limitação provavelmente impulsionará a demanda por novas metodologias que possam lidar com enormes volumes de dados e complexidades, além de permanecerem transparentes na tomada de decisões.

Generalização da aprendizagem

Generalização se refere à capacidade do modelo ser generalizado de um caso de uso para outro. Ao contrário dos humanos, os modelos tendem a lutar contra a generalização, também conhecida como validade externa. Em geral, quando um modelo é construído para um caso específico, ele não deve ser usado para um caso diferente. Embora métodos como transferência de aprendizado, uma abordagem que tenta solucionar esse problema, estejam em desenvolvimento, a generalização permanece uma limitação significativa da modelagem preditiva.

Predisposição em dados e algoritmos

Embora seja mais uma questão ética ou filosófica do que técnica, alguns argumentam que pesquisadores e profissionais que criam modelos preditivos devem ter cuidado ao escolher quais dados usar e quais excluir. Como as predisposições históricas podem estar enraizadas no nível mais baixo de dados, muito cuidado deve ser tomado ao tentar lidar com essas predisposições, ou suas repercussões podem ser perpetuadas no futuro por modelos preditivos.

Ferramentas de modelagem preditiva

Apache Hadoop

Reconhecido no setor de tecnologia pelo seu distintivo logotipo amarelo do elefante, o Apache Hadoop, comumente chamado Hadoop, é uma coleção de utilitários de software de código aberto projetados para ajudar uma rede de computadores a trabalhar em conjunto em tarefas que envolvem grandes quantidades de dados. O Hadoop funciona principalmente como um utilitário de armazenamento e processamento. O utilitário de processamento é um modelo de programação MapReduce. O Hadoop também pode se referir a vários pacotes de software adicionais no ecossistema do Apache Hadoop. Esses pacotes incluem:

O Hadoop se tornou extremamente útil e importante no campo da modelagem preditiva, especialmente para modelos ou problemas que exigem grande armazenamento de dados. Profissionais de modelagem preditiva com habilidades ou conhecimentos especializados no ecossistema Hadoop, especialmente o MapReduce e pacotes como o Apache Hive, podem encontrar um prêmio salarial para essas habilidades.

R

R é uma linguagem de programação de código aberto para computação estatística e gráficos. Os analistas precisam de habilidades técnicas para trabalhar eficientemente com esta ferramenta. Inclui recursos como regressão linear, modelagem não linear e testes de séries temporais. Os casos de uso incluem:

Python

Python é uma linguagem de programação de alto nível feita para programação geral. Embora o R tenha sido criado especificamente para estatísticas, o Python excede o R quando se trata de recursos de mineração de dados, geração de imagens e fluxo de dados. É mais versátil que o R e mais comumente usado com outros programas. O Python geralmente é mais fácil de aprender do que o R e é melhor usado para automação de tarefas.

Microstrategy

A MicroStrategy é uma plataforma de análise e mobilidade empresarial com integração de R, Python e Google Analytics. Ele tem mais de 60 conectores de fontes de dados, portanto, os analistas podem obter insights ao combinar dados distintos. Esses dados podem ser exibidos em visualizações de dados e relatórios de dashboard para obter informações rapidamente e podem ser facilmente compartilhados por toda a organização. A MicroStrategy também inclui recursos avançados de análise, incluindo análise preditiva, com mais de 300 funções analíticas nativas e programas estatísticos de código aberto e de terceiros. Alguns exemplos incluem:

Carreiras em modelagem preditiva

A modelagem preditiva é um campo pronto para alto crescimento nos próximos anos devido à explosão de dados, avanços tecnológicos e comprovada capacidade de adição de valor. Na verdade, em 2017, a IBM previu que a demanda por profissionais de ciência de dados e análise aumentaria em 15% até o ano 2020.

Embora muitas empresas saibam que precisam aplicar a modelagem preditiva a seus negócios, atualmente há uma escassez de candidatos com as qualificações adequadas. Por causa disso, as empresas ofereceram salários substanciais a candidatos qualificados, a fim de atraí-los para longe dos concorrentes ou de outros empregos. Enquanto o número de candidatos qualificados está aumentando, a demanda por esses profissionais está crescendo a um ritmo significativo.

EMPREGOS NA MODELAGEM PREDITIVA

Alguns cargos comuns incluem:

MODELAGEM PREDITIVA: QUAIS HABILIDADES SÃO NECESSÁRIAS?

Quanto ganham os profissionais de modelagem preditiva?

Os salários variam dependendo do histórico de um candidato e da necessidade da empresa, mas as habilidades em ciência de dados se traduzem em salários mais altos. Algumas das habilidades que atraem salários mais altos são MapReduce, Apache Hive e Apache Hadoop.

Data Scientist Starting Salary

PERGUNTAS FREQUENTES

O que é análise preditiva?
O que é um exemplo de análise preditiva?
O que é um modelo de pontuação?
Como o iPhone usa modelagem preditiva?
O que é um modelo preditivo?
Por que a análise preditiva é importante?