Müssen Sie komplexe Datenintegrations-Workflows erstellen, planen und überwachen, die Daten aus verschiedenen lokalen und Cloud-Quellen verschieben und transformieren.
→Verwenden Sie Azure Data Factory (ADF).
Warum: ADF ist ein verwalteter Cloud-Orchestrierungsdienst zum Erstellen und Verwalten von ETL/ELT-Pipelines im großen Maßstab, mit umfangreichen Konnektivitäts- und Überwachungsfunktionen.
Referenz↗
Eine Azure Data Factory-Pipeline muss auf eine Datenquelle zugreifen, die sich lokal hinter einer Unternehmensfirewall befindet.
→Installieren Sie eine selbstgehostete Integration Runtime (IR) auf einem Computer innerhalb des lokalen Netzwerks.
Warum: Die selbstgehostete IR fungiert als sicheres Gateway, das ADF in der Cloud ermöglicht, sich mit lokalen Datenquellen zu verbinden und Daten von dort zu verschieben, ohne diese dem öffentlichen Internet auszusetzen.
Benötigen Sie eine einzige, integrierte Plattform für Data Warehousing (SQL), Big Data Analytics (Spark), Datenexploration (serverloses SQL) und Datenintegration.
→Verwenden Sie Azure Synapse Analytics.
Warum: Synapse bietet einen vereinheitlichten Arbeitsbereich (Synapse Studio), der diese verschiedenen Analyse-Engines zusammenführt und so Komplexität und Integrationsaufwand reduziert.
Wählen einer SQL-Abfrage-Engine innerhalb von Synapse Analytics.
→Verwenden Sie den Serverless SQL Pool für Ad-hoc-, explorative Abfragen auf Daten im Data Lake mit einem Pay-per-Query-Modell. Verwenden Sie den Dedicated SQL Pool für leistungsstarke, vorhersehbare Data Warehousing-Workloads mit bereitgestellten Ressourcen.
Warum: Serverless ist für unvorhersehbare Exploration und Entdeckung. Dedicated ist für die Produktions-BI und Berichterstattung mit Leistungs-SLAs.
Müssen Sie hochvolumige Streaming-Daten in Echtzeit aus Quellen wie IoT Hub oder Event Hubs verarbeiten und analysieren, um Live-Dashboards zu versorgen oder Alarme auszulösen.
→Verwenden Sie Azure Stream Analytics.
Warum: Stream Analytics ist eine Echtzeit-Ereignisverarbeitungs-Engine, die eine einfache SQL-ähnliche Abfragesprache verwendet, um Daten in Bewegung mit geringer Latenz zu analysieren.
Ein Data Science-Team benötigt eine kollaborative, Notebook-basierte Umgebung für groß angelegte Datenengineering und maschinelles Lernen mit Apache Spark.
→Verwenden Sie Azure Databricks.
Warum: Databricks bietet eine optimierte Spark-Laufzeit, kollaborative Notebooks und integrierte ML-Funktionen (MLflow), was es zur führenden Plattform für erweiterte Analysen und ML in Azure macht.
Müssen Sie Millionen von Ereignissen pro Sekunde aus Quellen wie mobilen Apps, Web-Telemetrie oder IoT-Geräten für die Echtzeitverarbeitung erfassen.
→Verwenden Sie Azure Event Hubs.
Warum: Event Hubs ist eine Big-Data-Streaming-Plattform, die für die Ereignisaufnahme mit hohem Durchsatz entwickelt wurde. Sie fungiert als "Vordertür" für Streaming-Daten und entkoppelt Produzenten von Konsumenten.
Ein Unternehmen wünscht sich eine einzige, vereinheitlichte SaaS-Analyseplattform, die Datenengineering, Data Science, Data Warehousing und BI mit minimaler Infrastrukturverwaltung kombiniert.
→Verwenden Sie Microsoft Fabric.
Warum: Fabric bietet ein End-to-End-, SaaS-basiertes Analyseerlebnis, das auf einem einzigen Data Lake (OneLake) aufgebaut ist. Es vereinfacht die Architektur und reduziert den Integrationsaufwand im Vergleich zur Erstellung mit separaten PaaS-Diensten.
Referenz↗
Innerhalb von Microsoft Fabric benötigen Sie ein einziges Artefakt, um Daten im offenen Delta Lake-Format zu speichern, das sowohl von Spark-Engines (für Data Engineering) als auch von SQL-Engines (für BI) zugänglich ist.
→Verwenden Sie ein Microsoft Fabric Lakehouse.
Warum: Das Lakehouse ist das zentrale Architekturmuster in Fabric. Es kombiniert die Skalierbarkeit und Flexibilität eines Data Lakes mit den Transaktionsgarantien und SQL-Abfragefunktionen eines Data Warehouses.
Ein Power BI-Bericht in Microsoft Fabric muss große Datenmengen direkt aus OneLake abfragen, mit der Leistung des Importmodus, aber der Datenaktualität von DirectQuery.
→Verwenden Sie den Direct Lake-Modus in Power BI.
Warum: Direct Lake ist eine einzigartige Fabric-Funktion, die Parquet-/Delta-Dateien bei Bedarf direkt in den Arbeitsspeicher der Power BI-Engine lädt, wodurch Datenredundanz und Abfragelatenz vermieden und nahezu Echtzeit-Datenzugriff ermöglicht wird.
Geschäftsanwender müssen sich mit verschiedenen Datenquellen verbinden, interaktive Dashboards und Berichte erstellen und Erkenntnisse in der gesamten Organisation teilen.
→Verwenden Sie Power BI.
Warum: Power BI ist der Business-Analytics-Dienst von Microsoft zum Erstellen interaktiver Datenvisualisierungen. Verwenden Sie Power BI Desktop für die Erstellung und Power BI Service für die Freigabe und Zusammenarbeit.
Unterscheidung zwischen einer mehrseitigen interaktiven Analyse und einer einseitigen, hochrangigen Übersicht in Power BI.
→Ein Bericht ist eine mehrseitige Sammlung detaillierter, interaktiver Visualisierungen, die aus einem einzigen Datensatz erstellt wurden. Ein Dashboard ist eine einzelne Arbeitsfläche von Kacheln, die aus einem oder mehreren Berichten angeheftet wurden und eine schnelle Übersicht bieten.
Warum: Berichte sind für detaillierte Analysen. Dashboards dienen der Überwachung wichtiger Kennzahlen.
Ein einzelner Power BI-Bericht muss mit mehreren Benutzern geteilt werden, aber jeder Benutzer soll nur die für ihn relevanten Daten sehen (z. B. sieht ein Vertriebsleiter nur die Daten seiner Region).
→Implementieren Sie Row-Level Security (RLS).
Warum: RLS definiert Filterregeln basierend auf Benutzerrollen und erzwingt die Datensicherheit auf Ebene des Datenmodells, sodass Benutzer, die denselben Bericht aufrufen, unterschiedliche Teildatensätze sehen.
Müssen Sie hochformatierte, pixelgenaue Berichte (wie Rechnungen oder Finanzberichte) erstellen, die für den Druck oder den PDF-Export optimiert sind.
→Verwenden Sie Power BI Paginated Reports.
Warum: Paginated Reports sind für druckfertige Layouts mit präziser Kontrolle über Kopf- und Fußzeilen sowie Seitenumbrüche konzipiert, im Gegensatz zu standardmäßigen interaktiven Power BI-Berichten, die für die Bildschirmexploration gedacht sind.
Ein Power BI-Datensatz mit Milliarden von Zeilen benötigt zu lange zum Aktualisieren. Nur die Daten der letzten Tage ändern sich häufig.
→Konfigurieren Sie die inkrementelle Aktualisierung für den Datensatz.
Warum: Die inkrementelle Aktualisierung partitioniert die Daten (normalerweise nach Datum) und aktualisiert nur die jüngsten Partitionen, wodurch die Aktualisierungszeit und der Ressourcenverbrauch für große Datensätze drastisch reduziert werden.
Ein einzelner Power BI-Bericht muss vorab geladene, hochleistungsfähige Daten (Import-Modus) mit Echtzeitdaten aus einer operativen Quelle (DirectQuery-Modus) kombinieren.
→Verwenden Sie Power BI Composite Models.
Warum: Composite Models ermöglichen es einem einzelnen Datensatz, Tabellen mit verschiedenen Speichermodi zu mischen, was die Flexibilität bietet, Leistung und Datenaktualität auszugleichen.
Ein Unternehmen muss alle Datenbestände in seiner hybriden Datenlandschaft entdecken, klassifizieren und katalogisieren, um Daten-Governance und -Entdeckung zu ermöglichen.
→Verwenden Sie Microsoft Purview.
Warum: Purview ist ein vereinheitlichter Daten-Governance-Dienst, der automatisiertes Daten-Scanning, ein Business-Glossar, Datenklassifizierung und eine End-to-End-Datenherkunfts visualisierung bietet.