Escolha uma ferramenta visual de preparação de dados.
→Focada em ML, integra-se com SageMaker Studio + fluxo → Tarefa de processamento → Pipeline → Exportação de notebook → SageMaker Data Wrangler. Limpeza genérica de dados com receitas reutilizáveis, perfilamento, sem dependência do SageMaker → AWS Glue DataBrew. 50 TB+ Spark com código personalizado → Amazon EMR.
Por quê: O Data Wrangler é a opção nativa do SageMaker (mais de 300 transformações, extração de data/hora, exporta para Pipeline/Processing). O DataBrew é baseado em receitas e agnóstico de fonte. O EMR lida com escala e Spark arbitrário.
Referência↗
Catalogar dados em S3, RDS, DynamoDB para que analistas e SageMaker possam descobrir conjuntos de dados.
→AWS Glue Crawlers populam o AWS Glue Data Catalog com esquemas + metadados. Athena, Redshift Spectrum e SageMaker todos o consomem.
Referência↗
Precisa de controle de acesso em nível de coluna e linha no data lake com registro de auditoria.
→AWS Lake Formation. Políticas de IAM e de bucket S3 não fornecem granularidade em nível de coluna para dados estruturados.
Por quê: O Lake Formation centraliza a governança para o Glue Data Catalog e integra-se com o CloudTrail para auditoria.
Referência↗
Executar SQL ad-hoc em dados do S3 sem provisionar nada.
→Amazon Athena. Serverless, paga por TB digitalizado. Particione dados e use Parquet para reduzir custos e tempo.
Referência↗
50 TB de engenharia de features com código PySpark existente, deve terminar em 4 horas.
→Amazon EMR com Spark. Tamanho de cluster ajustável, suporte a Spot, executa o código existente inalterado.
Por quê: O Glue ETL também executa Spark, mas o EMR oferece mais controle sobre a forma do cluster; o SageMaker Processing é para tarefas de contêiner único em menor escala.
Referência↗
Executar um script personalizado de pré-processamento scikit-learn / pandas antes do treinamento. Computação efêmera, sem custo de inatividade.
→Tarefa de SageMaker Processing com o contêiner SKLearn (ou PySpark). Provisiona, executa, termina.
Por quê: Melhor do que executar em um notebook (permanece ativo, custa dinheiro) ou Lambda (limite de 15 minutos, limites de memória).
Referência↗
Rotular 100.000 imagens de forma econômica — quer rotulagem humana + automatizada.
→Amazon SageMaker Ground Truth com rotulagem de dados automatizada ativada. Após um subconjunto inicial rotulado por humanos, o Ground Truth treina um modelo e rotula automaticamente amostras de alta confiança.
Por quê: Aprendizagem ativa geralmente reduz o custo de rotulagem em até 70%. A2I é para revisão humana de previsões de modelos, não para rotulagem em massa.
Referência↗
Vários anotadores discordam; precisa de um revisor sênior para verificar uma amostra de rótulos.
→Fluxo de trabalho de verificação de rótulos (auditoria) do Ground Truth. Um subconjunto de rótulos é direcionado a uma força de trabalho de revisão que aprova, rejeita ou ajusta. Combine com consolidação de anotações para votação por maioria de múltiplos trabalhadores.
Referência↗
Mesmas features engenheiradas necessárias no treinamento (batch) e na inferência (sub-10ms).
→Amazon SageMaker Feature Store com lojas online + offline habilitadas no grupo de features. A loja online suporta GetRecord em tempo real; a loja offline (Parquet no S3) suporta o treinamento.
Por quê: Elimina o viés de treinamento/serviço sem uma sincronização personalizada DynamoDB ↔ S3.
Referência↗
Definindo um grupo de features — o que é obrigatório.
→Nome do identificador de registro (chave única por registro) e nome da feature de tempo do evento (timestamp para consultas pontuais).
Referência↗
Unir dois grupos de features para treinamento sem vazar valores futuros de features.
→Junção pontual contra a loja offline usando a coluna de tempo do evento. Cada linha de treinamento vê apenas valores de features que existiam no seu timestamp de evento.
Por quê: Um JOIN simples em valores mais recentes causa vazamento de dados ao expor o desvio de features pós-evento ao modelo.
Referência↗
Escolha um modo de entrada de dados de treinamento do SageMaker para um conjunto de dados de 500 GB.
→Modo de arquivo → todo o conjunto de dados é baixado primeiro (início lento, custo de EBS). Modo pipe → transmite do S3, inicialização rápida, baixo armazenamento. Modo FastFile → streaming preguiçoso em nível de arquivo. Use Pipe (ou FastFile) para grandes conjuntos de dados para evitar o download.
Referência↗
Milhões de arquivos pequenos (cada um ~50 KB) — o throughput do modo Pipe é baixo.
→Empacote em Amazon RecordIO (protobuf) e transmita via modo Pipe. Registros sequenciais eliminam a sobrecarga de GET do S3 por arquivo.
Referência↗
Escolha um formato de armazenamento e layout para data lake de ML no S3 com leituras frequentes de subconjuntos de colunas + filtros de partição.
→Parquet (colunar, comprimido) particionado pela coluna mais filtrada (ex: data ou região). Impulsiona a poda de colunas + poda de partição no Athena e SageMaker.
Referência↗
O Glue ETL reprocessa arquivos já tratados em cada execução.
→Habilite os marcadores de tarefa do Glue. Use a opção PAUSE para que uma execução com falha não avance o marcador; redefina apenas quando necessário.
Referência↗
Validar esquema, tipos, intervalos de valores e restrições de nulos dentro do pipeline Glue ETL.
→AWS Glue Data Quality com regras DQDL. Interrompe o pipeline quando as verificações falham.
Referência↗
Codificar features categóricas. Algumas são ordenadas (Básico/Padrão/Premium), outras não (estados dos EUA).
→Ordenadas → codificação ordinal (preserva a ordem). Não ordenadas → one-hot encoding (evita ordinalidade falsa). Evite label encoding em features não ordenadas. Target encoding requer CV cuidadoso para evitar vazamento.
Coluna numérica tem valores ausentes que se correlacionam com outra feature (ex: renda ausente depende do tipo de emprego).
→Imputação da mediana baseada em grupo (mediana por tipo de emprego). Preserva a relação; a média é sensível a outliers; a remoção perde dados; zero adiciona viés.
Classificação binária com 0,3% de classe positiva.
→Oversampling SMOTE apenas na dobra de treinamento (após a divisão). Combine com avaliação PR-curve / F1, não acurácia.
Por quê: Aplique oversampling APÓS a divisão para evitar vazamento. A acurácia é enganosa em dados desbalanceados.
Feature numérica com assimetria à direita (ex: renda) prejudica o desempenho do modelo linear.
→Transformação logarítmica. Comprime a cauda direita e produz uma distribuição mais simétrica. Padronização/min-max mudam a escala, não a forma.
50 features altamente correlacionadas; quer menor dimensionalidade preservando a variância.
→PCA. Transforma features correlacionadas em componentes principais não correlacionados ranqueados por variância.
Escolha uma divisão treino/validação/teste.
→Classificação desbalanceada → divisão estratificada (preserva a proporção de classes). Séries temporais → divisão cronológica (treinar em período inicial, testar no mais recente); nunca embaralhamento aleatório. Tabular IID → aleatório.