Precisa construir, agendar e monitorar fluxos de trabalho complexos de integração de dados que movem e transformam dados de várias fontes locais e na nuvem.
→Use o Azure Data Factory (ADF).
Por quê: ADF é um serviço de orquestração de nuvem gerenciado para construir e gerenciar pipelines ETL/ELT em escala, com amplas capacidades de conectividade e monitoramento.
Referência↗
Um pipeline do Azure Data Factory precisa acessar uma fonte de dados localizada on-premises atrás de um firewall corporativo.
→Instale um Integration Runtime (IR) auto-hospedado em uma máquina dentro da rede on-premises.
Por quê: O IR auto-hospedado atua como um gateway seguro, permitindo que o ADF na nuvem se conecte e mova dados de fontes on-premises sem expô-las à internet pública.
Precisa de uma plataforma única e integrada para data warehousing (SQL), análise de big data (Spark), exploração de dados (SQL serverless) e integração de dados.
→Use o Azure Synapse Analytics.
Por quê: O Synapse fornece um workspace unificado (Synapse Studio) que reúne esses diferentes motores analíticos, reduzindo a complexidade e a sobrecarga de integração.
Escolhendo um motor de consulta SQL dentro do Synapse Analytics.
→Use o pool SQL Serverless para consultas ad-hoc e exploratórias em dados no data lake com um modelo de pagamento por consulta. Use o pool SQL Dedicado para cargas de trabalho de data warehousing de alto desempenho e previsíveis com recursos provisionados.
Por quê: Serverless é para exploração e descoberta imprevisíveis. Dedicado é para BI e relatórios de produção com SLAs de desempenho.
Precisa processar e analisar dados de streaming de alto volume em tempo real de fontes como IoT Hub ou Event Hubs para alimentar dashboards ao vivo ou acionar alertas.
→Use o Azure Stream Analytics.
Por quê: O Stream Analytics é um motor de processamento de eventos em tempo real que usa uma linguagem de consulta simples, semelhante ao SQL, para analisar dados em movimento com baixa latência.
Uma equipe de ciência de dados precisa de um ambiente colaborativo, baseado em notebooks, para engenharia de dados e aprendizado de máquina em larga escala usando Apache Spark.
→Use o Azure Databricks.
Por quê: Databricks fornece um runtime Spark otimizado, notebooks colaborativos e capacidades de ML integradas (MLflow), tornando-o a plataforma principal para análise avançada e ML no Azure.
Precisa ingerir milhões de eventos por segundo de fontes como aplicativos móveis, telemetria da web ou dispositivos IoT para processamento em tempo real.
→Use o Azure Event Hubs.
Por quê: O Event Hubs é uma plataforma de streaming de big data projetada para ingestão de eventos de alto throughput. Ele atua como a "porta de entrada" para dados de streaming, desacoplando produtores de consumidores.
Uma organização deseja uma plataforma de análise SaaS única e unificada que combine engenharia de dados, ciência de dados, data warehousing e BI com gerenciamento mínimo de infraestrutura.
→Use o Microsoft Fabric.
Por quê: O Fabric oferece uma experiência de análise de ponta a ponta, baseada em SaaS, construída sobre um único data lake (OneLake). Ele simplifica a arquitetura e reduz a sobrecarga de integração em comparação com a construção com serviços PaaS separados.
Referência↗
Dentro do Microsoft Fabric, precisa de um único artefato para armazenar dados no formato aberto Delta Lake que possa ser acessado por motores Spark (para engenharia de dados) e motores SQL (para BI).
→Use um Microsoft Fabric Lakehouse.
Por quê: O Lakehouse é o padrão arquitetônico central no Fabric. Ele combina a escalabilidade e flexibilidade de um data lake com as garantias transacionais e capacidades de consulta SQL de um data warehouse.
Um relatório do Power BI no Microsoft Fabric precisa consultar grandes volumes de dados diretamente do OneLake com o desempenho do modo de importação, mas a atualização de dados do DirectQuery.
→Use o modo Direct Lake no Power BI.
Por quê: Direct Lake é um recurso exclusivo do Fabric que carrega arquivos Parquet/Delta diretamente na memória do motor do Power BI sob demanda, evitando duplicação de dados e latência de consulta, ao mesmo tempo que fornece acesso a dados quase em tempo real.
Usuários de negócios precisam se conectar a várias fontes de dados, criar dashboards e relatórios interativos e compartilhar insights em toda a organização.
→Use o Power BI.
Por quê: Power BI é o serviço de análise de negócios da Microsoft para construir visualizações de dados interativas. Use o Power BI Desktop para autoria e o Power BI Service para compartilhamento e colaboração.
Diferenciar entre uma análise interativa de várias páginas e uma visão geral de alto nível de página única no Power BI.
→Um Relatório é uma coleção de várias páginas de visuais detalhados e interativos construídos a partir de um único conjunto de dados. Um Dashboard é uma tela única de blocos fixados de um ou mais relatórios, fornecendo uma visão geral rápida.
Por quê: Relatórios são para análise aprofundada. Dashboards são para monitorar métricas chave.
Um único relatório do Power BI deve ser compartilhado com vários usuários, mas cada usuário deve ver apenas os dados relevantes para ele (por exemplo, um gerente de vendas vê apenas os dados de sua região).
→Implementar Segurança em Nível de Linha (RLS).
Por quê: RLS define regras de filtro com base nas funções do usuário, aplicando a segurança dos dados no nível do modelo de dados para que os usuários que acessam o mesmo relatório vejam diferentes subconjuntos de dados.
Precisa gerar relatórios altamente formatados e pixel-perfeitos (como faturas ou demonstrativos financeiros) que são otimizados para impressão ou exportação em PDF.
→Use Relatórios Paginados do Power BI.
Por quê: Relatórios paginados são projetados para layouts prontos para impressão com controle preciso sobre cabeçalhos, rodapés e quebras de página, ao contrário dos relatórios interativos padrão do Power BI que são para exploração em tela.
Um conjunto de dados do Power BI contendo bilhões de linhas leva muito tempo para ser atualizado. Apenas os últimos dias de dados mudam frequentemente.
→Configure a atualização incremental no conjunto de dados.
Por quê: A atualização incremental particiona os dados (geralmente por data) e atualiza apenas as partições mais recentes, reduzindo drasticamente o tempo de atualização e o uso de recursos para grandes conjuntos de dados.
Um único relatório do Power BI precisa combinar dados pré-carregados de alto desempenho (modo Importar) com dados em tempo real de uma fonte operacional (modo DirectQuery).
→Use modelos compostos do Power BI.
Por quê: Modelos compostos permitem que um único conjunto de dados misture tabelas com diferentes modos de armazenamento, proporcionando flexibilidade para equilibrar desempenho e atualização de dados.
Uma organização precisa descobrir, classificar e catalogar todos os ativos de dados em seu patrimônio de dados híbrido para habilitar a governança e descoberta de dados.
→Use o Microsoft Purview.
Por quê: O Purview é um serviço unificado de governança de dados que oferece digitalização automatizada de dados, um glossário de negócios, classificação de dados e visualização de linhagem de dados de ponta a ponta.