Besoin de construire, planifier et surveiller des workflows complexes d'intégration de données qui déplacent et transforment des données provenant de diverses sources sur site et dans le cloud.
→Utiliser Azure Data Factory (ADF).
Pourquoi: ADF est un service d'orchestration cloud géré pour la construction et la gestion de pipelines ETL/ELT à grande échelle, avec des capacités de connectivité et de surveillance étendues.
Référence↗
Un pipeline Azure Data Factory doit accéder à une source de données située sur site derrière un pare-feu d'entreprise.
→Installer un Integration Runtime (IR) auto-hébergé sur une machine au sein du réseau sur site.
Pourquoi: L'IR auto-hébergé agit comme une passerelle sécurisée, permettant à ADF dans le cloud de se connecter et de déplacer des données depuis des sources sur site sans les exposer à l'internet public.
Besoin d'une plateforme unique et intégrée pour l'entreposage de données (SQL), l'analyse de big data (Spark), l'exploration de données (SQL serverless) et l'intégration de données.
→Utiliser Azure Synapse Analytics.
Pourquoi: Synapse fournit un espace de travail unifié (Synapse Studio) qui rassemble ces différents moteurs analytiques, réduisant la complexité et les frais généraux d'intégration.
Choisir un moteur de requête SQL au sein de Synapse Analytics.
→Utiliser le pool SQL Serverless pour les requêtes ad hoc et exploratoires sur les données du lac de données avec un modèle de paiement à la requête. Utiliser le pool SQL dédié pour les charges de travail d'entreposage de données performantes et prévisibles avec des ressources provisionnées.
Pourquoi: Serverless est pour l'exploration et la découverte imprévisibles. Dedicated est pour la BI et les rapports de production avec des SLA de performance.
Besoin de traiter et d'analyser des données de streaming à grand volume en temps réel provenant de sources comme IoT Hub ou Event Hubs pour alimenter des tableaux de bord en direct ou déclencher des alertes.
→Utiliser Azure Stream Analytics.
Pourquoi: Stream Analytics est un moteur de traitement d'événements en temps réel qui utilise un langage de requête simple, de type SQL, pour analyser les données en mouvement avec une faible latence.
Une équipe de science des données a besoin d'un environnement collaboratif basé sur des notebooks pour l'ingénierie des données à grande échelle et l'apprentissage automatique utilisant Apache Spark.
→Utiliser Azure Databricks.
Pourquoi: Databricks fournit un runtime Spark optimisé, des notebooks collaboratifs et des capacités ML intégrées (MLflow), ce qui en fait la plateforme principale pour l'analyse avancée et le ML sur Azure.
Besoin d'ingérer des millions d'événements par seconde provenant de sources telles que les applications mobiles, la télémétrie web ou les appareils IoT pour un traitement en temps réel.
→Utiliser Azure Event Hubs.
Pourquoi: Event Hubs est une plateforme de streaming de big data conçue pour l'ingestion d'événements à haut débit. Il agit comme la "porte d'entrée" pour les données de streaming, découplant les producteurs des consommateurs.
Une organisation souhaite une plateforme d'analyse SaaS unique et unifiée combinant l'ingénierie des données, la science des données, l'entreposage de données et la BI avec une gestion minimale de l'infrastructure.
→Utiliser Microsoft Fabric.
Pourquoi: Fabric offre une expérience d'analyse de bout en bout basée sur SaaS, construite sur un lac de données unique (OneLake). Cela simplifie l'architecture et réduit les frais généraux d'intégration par rapport à la construction avec des services PaaS séparés.
Référence↗
Au sein de Microsoft Fabric, besoin d'un artefact unique pour stocker des données au format Delta Lake ouvert, accessible à la fois par les moteurs Spark (pour l'ingénierie des données) et les moteurs SQL (pour la BI).
→Utiliser un Microsoft Fabric Lakehouse.
Pourquoi: Le Lakehouse est le modèle architectural principal dans Fabric. Il combine l'évolutivité et la flexibilité d'un lac de données avec les garanties transactionnelles et les capacités de requête SQL d'un entrepôt de données.
Un rapport Power BI dans Microsoft Fabric doit interroger de grands volumes de données directement depuis OneLake avec les performances du mode d'importation mais la fraîcheur des données de DirectQuery.
→Utiliser le mode Direct Lake dans Power BI.
Pourquoi: Direct Lake est une fonctionnalité unique de Fabric qui charge les fichiers Parquet/Delta directement dans la mémoire du moteur Power BI à la demande, évitant la duplication des données et la latence des requêtes tout en offrant un accès aux données quasi en temps réel.
Les utilisateurs métier doivent se connecter à diverses sources de données, créer des tableaux de bord et des rapports interactifs, et partager des informations au sein de l'organisation.
→Utiliser Power BI.
Pourquoi: Power BI est le service d'analyse commerciale de Microsoft pour la création de visualisations de données interactives. Utilisez Power BI Desktop pour la création et Power BI Service pour le partage et la collaboration.
Différencier une analyse interactive multi-pages d'une vue d'ensemble de haut niveau sur une seule page dans Power BI.
→Un rapport (Report) est une collection multi-pages de visuels détaillés et interactifs construits à partir d'un seul jeu de données. Un tableau de bord (Dashboard) est une toile unique de vignettes épinglées à partir d'un ou plusieurs rapports, offrant une vue d'ensemble rapide.
Pourquoi: Les rapports sont destinés à une analyse approfondie. Les tableaux de bord sont destinés au suivi des métriques clés.
Un seul rapport Power BI doit être partagé avec plusieurs utilisateurs, mais chaque utilisateur ne doit voir que les données qui le concernent (par exemple, un directeur des ventes ne voit que les données de sa région).
→Implémenter la sécurité au niveau des lignes (RLS).
Pourquoi: RLS définit des règles de filtrage basées sur les rôles des utilisateurs, appliquant la sécurité des données au niveau du modèle de données afin que les utilisateurs accédant au même rapport voient des sous-ensembles de données différents.
Besoin de générer des rapports très formatés, au pixel près (comme des factures ou des états financiers) optimisés pour l'impression ou l'exportation PDF.
→Utiliser les rapports paginés Power BI.
Pourquoi: Les rapports paginés sont conçus pour des mises en page prêtes à l'impression avec un contrôle précis sur les en-têtes, les pieds de page et les sauts de page, contrairement aux rapports Power BI interactifs standard qui sont destinés à l'exploration à l'écran.
Un jeu de données Power BI contenant des milliards de lignes prend trop de temps à se rafraîchir. Seuls les derniers jours de données changent fréquemment.
→Configurer l'actualisation incrémentielle sur le jeu de données.
Pourquoi: L'actualisation incrémentielle partitionne les données (généralement par date) et n'actualise que les partitions les plus récentes, réduisant considérablement le temps d'actualisation et l'utilisation des ressources pour les grands jeux de données.
Un seul rapport Power BI doit combiner des données préchargées et performantes (mode Import) avec des données en temps réel provenant d'une source opérationnelle (mode DirectQuery).
→Utiliser les modèles composites Power BI.
Pourquoi: Les modèles composites permettent à un seul jeu de données de mélanger des tables avec différents modes de stockage, offrant la flexibilité d'équilibrer les performances et la fraîcheur des données.
Une organisation a besoin de découvrir, classifier et cataloguer tous les actifs de données à travers son patrimoine de données hybride pour permettre la gouvernance et la découverte des données.
→Utiliser Microsoft Purview.
Pourquoi: Purview est un service unifié de gouvernance des données qui fournit une analyse automatique des données, un glossaire métier, une classification des données et une visualisation de la lignée des données de bout en bout.