PROTOCOLO DE MINERAÇÃO DE DADOS · 2026

CRISP-DM no Varejo
Alimentício · Da Gôndola ao Modelo

Como transformar dados de cupom fiscal, balanças e câmeras em decisões que reduzem perdas, agilizam o checkout e otimizam o layout do supermercado.

UNIVERSIDADE SENAI CIMATEC · Inteligência Artificial no Varejo Alimentício Bruno Cabral Chaves / Dilvan dos Anjos Junior / Grupo · Salvador / BA
01 · O Cenário

Três dores reais do supermercado modelo

Diagnóstico de causalidade no chão de loja: cada situação demanda uma técnica de mineração específica e uma fonte de dados própria.

A
Operação

Lentidão na pesagem de hortifrúti

Causa: dependência da memorização de códigos pelos operadores.

Consequência: formação de filas e erros de cobrança no PDV.

→ Visão Computacional · EfficientNetB0
B
Compras & Estoque

Imprecisão na previsão de demanda

Causa: modelos estatísticos obsoletos que ignoram a sazonalidade.

Consequência: desperdício de perecíveis ou ruptura nas gôndolas.

→ Aprendizado Supervisionado · KNN / XGBoost
C
Marketing & Layout

Layout de loja ineficiente

Causa: ausência de análise técnica entre categorias de produto.

Consequência: perda de venda casada e fluxo confuso.

→ Regras de Associação · Apriori
02 · O Framework

As 6 fases iterativas do CRISP-DM

Modelo de processo padrão da indústria desde 2000. Mais de 40% dos projetos de ciência de dados no mundo seguem este framework (KDnuggets, 2014; Schröer et al., 2021).

1 Negócio 2 Dados 3 Preparação 4 Modelagem 5 Avaliação 6 Implantação CRISP- DM iterativo

Por que CRISP-DM permanece relevante em 2026?

Independência de tecnologia: não amarra o supermercado a um fornecedor específico de IA, ERP ou nuvem.

Aderência ao varejo: integra requisitos de margem, ruptura e ticket médio à modelagem desde a fase 1.

Iteratividade: permite ajustar regras de associação à medida que o layout é validado em loja-piloto.

Auditabilidade: cada fase produz artefatos formais — essencial para LGPD e governança de dados.

60–80%
do esforço total é gasto em Preparação dos Dados (Anaconda, 2022)
18 sem.
três sprints incrementais até a primeira entrega em produção
03 · Aplicação Prática

O que acontece em cada fase, no chão da loja

Cada fase do CRISP-DM se traduz em ações concretas para resolver as Situações A, B e C identificadas no diagnóstico.

1

Entendimento do Negócio

"Qual problema resolveremos e como mediremos sucesso?"
  • Definir KPIs: tempo de checkout, MAPE de demanda, lift de vendas casadas
  • Mapear riscos: LGPD em imagens, dependência do ERP legado
  • Plano de 3 sprints (visão computacional, previsão, layout)
  • Aprovação de patrocinador executivo e gerentes de loja
Entregáveis: Carta de objetivos · Mapa de riscos · KPIs assinados
2

Entendimento dos Dados

"Quais dados existem e qual é a sua qualidade?"
  • Inventário do ERP: ~80 mil cupons/dia/loja, 25 mil SKUs
  • Captura de ~50 mil imagens/dia das balanças de hortifrúti
  • Mapeamento de quebras, validades e calendário de promoções
  • Achado-chave: 7% dos cupons têm peso sem SKU correto (Situação A)
Ferramentas: SQL · Pandas · Great Expectations
3

Preparação dos Dados

"Como transformar dados brutos em dataset modelável?"
  • Imputação por mediana para valores ausentes
  • Filtros IQR + Isolation Forest para outliers
  • Data Augmentation nas imagens (rotação, brilho, flip)
  • Feature engineering temporal (lag 7, 14, 28 dias)
Pipeline: Apache Airflow + DVC · Versionamento diário
4

Modelagem

"Quais algoritmos atendem cada frente do projeto?"
  • EfficientNetB0: transfer learning ImageNet → fine-tune hortifrúti
  • XGBoost (campeão) + KNN (baseline): previsão 7 e 30 dias
  • Apriori: suporte 1%, confiança 60%, lift 1,2
  • Otimização bayesiana de hiperparâmetros (Optuna)
Stack: TensorFlow · scikit-learn · MLxtend · MLflow
5

Avaliação

"O modelo cumpre as metas técnicas e de negócio?"
  • Cross-validation 5-fold + holdout temporal de 30 dias
  • Piloto em loja-controle por 30 dias
  • Comitê multidisciplinar: TI, operações, finanças, marketing
  • Decisão Go/No-Go com base em KPI + LGPD + TCO
Métricas: Acurácia top-1 · MAPE · Lift · Matriz confusão
6

Implantação

"Como entregar valor de forma contínua e monitorada?"
  • Containers Docker + Model Registry (MLflow)
  • Visão computacional: TensorFlow Lite em edge na balança
  • Monitoramento de drift via PSI (Population Stability Index)
  • Retraining mensal (demanda) e por gatilho (visão)
Arquitetura: MLOps · Kubernetes · Grafana · CI/CD
04 · Automação

Tarefas automatizáveis, desafios e ganhos esperados

Cada automação tem custo, desafio e retorno mensurável. Os ganhos abaixo são fundamentados em estudos e casos reais do varejo global.

Identificação visual no checkout
EfficientNetB0 · Edge AI

Desafios: custo de hardware GPU, conformidade LGPD para imagens, iluminação variável na balança.

↓ 35% no tempo de pesagem · base: Amazon Go (Amazon, 2018)
📊
Previsão de demanda diária
XGBoost · Features temporais

Desafios: qualidade do histórico, sazonalidade local, eventos atípicos não modelados.

↓ 20–30% em desperdício · base: IBM IBV (2022)
🛒
Layout e cross-sell
Apriori · Curadoria de categoria

Desafios: excesso de regras triviais (pão+manteiga), resistência cultural ao redesenho da loja.

↑ 8–12% em vendas casadas · base: Walmart (Power, 2002)
🔄
Reposição automática de gôndola
Modelo + Oracle Retail

Desafios: acurácia de estoque em tempo real, integração com fornecedores externos.

↓ até 25% em rupturas · base: GPA / Oracle (2018)
⚙️
Pipeline de preparação de dados
Airflow · DVC · Great Expectations

Desafios: manutenção do pipeline, governança e linhagem de dados sob LGPD.

↓ 60–80% no esforço manual de ETL (Anaconda, 2022)
📈
Monitoramento de modelos
MLflow · Grafana · PSI

Desafios: definição de thresholds, cultura de incident response na equipe de TI.

↓ incidentes silenciosos de drift (Sculley et al., 2015)
05 · Resultados Esperados

Metas de KPI para a loja-piloto

Os números abaixo materializam o retorno do protocolo nos 12 primeiros meses após a implantação.

35%
Tempo médio de pesagem de hortifrúti
≤12%
MAPE da previsão de demanda (classe A)
8%
Lift médio de vendas casadas por reposicionamento
20%
Perdas por validade vencida em perecíveis
≥92%
Acurácia top-1 da identificação visual

Casos reais que sustentam o protocolo

Grupo Pão de Açúcar
BRASIL

Migração para Oracle Retail Cloud elevou a precisão da previsão de demanda em itens-loja, modernizando processo historicamente frágil.

Oba Hortifruti
BRASIL

Cadeia curta com produtores e venda assistida por funcionários treinados — modelo de excelência operacional em perecíveis.

Walmart
EUA · GLOBAL

Pioneiro em Market Basket Analysis (caso fraldas+cervejas) e ensembles de gradient boosting para sinais externos de demanda.

Amazon Go
EUA

Visão computacional + sensores em loja sem checkout — referência de viabilidade industrial para EfficientNet em retail.