Necesidad de construir, programar y monitorear flujos de trabajo complejos de integración de datos que mueven y transforman datos de diversas fuentes locales y en la nube.
→Utilizar Azure Data Factory (ADF).
Por qué: ADF es un servicio de orquestación en la nube administrado para construir y gestionar pipelines ETL/ELT a escala, con amplias capacidades de conectividad y monitoreo.
Referencia↗
Un pipeline de Azure Data Factory necesita acceder a una fuente de datos ubicada localmente detrás de un firewall corporativo.
→Instalar un Integration Runtime (IR) autoalojado en una máquina dentro de la red local.
Por qué: El IR autoalojado actúa como una puerta de enlace segura, permitiendo que ADF en la nube se conecte y mueva datos desde fuentes locales sin exponerlas a internet público.
Necesidad de una plataforma única e integrada para data warehousing (SQL), análisis de big data (Spark), exploración de datos (SQL sin servidor) e integración de datos.
→Utilizar Azure Synapse Analytics.
Por qué: Synapse proporciona un espacio de trabajo unificado (Synapse Studio) que reúne estos diferentes motores analíticos, reduciendo la complejidad y la sobrecarga de integración.
Elegir un motor de consultas SQL dentro de Synapse Analytics.
→Utilizar el pool de SQL Serverless para consultas ad-hoc y exploratorias sobre datos en el data lake con un modelo de pago por consulta. Utilizar el pool de SQL Dedicado para cargas de trabajo de data warehousing de alto rendimiento y predecibles con recursos aprovisionados.
Por qué: Serverless es para exploración y descubrimiento impredecibles. Dedicated es para BI de producción y reporting con SLAs de rendimiento.
Necesidad de procesar y analizar datos de streaming de alto volumen en tiempo real desde fuentes como IoT Hub o Event Hubs para alimentar dashboards en vivo o disparar alertas.
→Utilizar Azure Stream Analytics.
Por qué: Stream Analytics es un motor de procesamiento de eventos en tiempo real que utiliza un lenguaje de consulta simple similar a SQL para analizar datos en movimiento con baja latencia.
Un equipo de ciencia de datos necesita un entorno colaborativo basado en notebooks para ingeniería de datos a gran escala y aprendizaje automático utilizando Apache Spark.
→Utilizar Azure Databricks.
Por qué: Databricks proporciona un tiempo de ejecución de Spark optimizado, notebooks colaborativos y capacidades de ML integradas (MLflow), convirtiéndolo en la plataforma principal para análisis avanzados y ML en Azure.
Necesidad de ingerir millones de eventos por segundo desde fuentes como aplicaciones móviles, telemetría web o dispositivos IoT para procesamiento en tiempo real.
→Utilizar Azure Event Hubs.
Por qué: Event Hubs es una plataforma de streaming de big data diseñada para la ingesta de eventos de alto rendimiento. Actúa como la "puerta de entrada" para los datos de streaming, desacoplando productores de consumidores.
Una organización desea una plataforma de análisis SaaS única y unificada que combine ingeniería de datos, ciencia de datos, data warehousing y BI con una gestión mínima de la infraestructura.
→Utilizar Microsoft Fabric.
Por qué: Fabric proporciona una experiencia de análisis de extremo a extremo basada en SaaS, construida sobre un único data lake (OneLake). Simplifica la arquitectura y reduce la sobrecarga de integración en comparación con la construcción con servicios PaaS separados.
Referencia↗
Dentro de Microsoft Fabric, se necesita un único artefacto para almacenar datos en formato abierto Delta Lake que pueda ser accedido tanto por motores Spark (para ingeniería de datos) como por motores SQL (para BI).
→Utilizar un Microsoft Fabric Lakehouse.
Por qué: El Lakehouse es el patrón arquitectónico central en Fabric. Combina la escalabilidad y flexibilidad de un data lake con las garantías transaccionales y las capacidades de consulta SQL de un data warehouse.
Un informe de Power BI en Microsoft Fabric necesita consultar grandes volúmenes de datos directamente desde OneLake con el rendimiento del modo de importación pero la frescura de los datos de DirectQuery.
→Utilizar el modo Direct Lake en Power BI.
Por qué: Direct Lake es una característica única de Fabric que carga archivos Parquet/Delta directamente en la memoria del motor de Power BI bajo demanda, evitando la duplicación de datos y la latencia de las consultas, al tiempo que proporciona acceso a datos casi en tiempo real.
Los usuarios de negocio necesitan conectarse a diversas fuentes de datos, crear dashboards e informes interactivos y compartir información en toda la organización.
→Utilizar Power BI.
Por qué: Power BI es el servicio de análisis de negocio de Microsoft para construir visualizaciones de datos interactivas. Utilizar Power BI Desktop para la creación y Power BI Service para compartir y colaborar.
Diferenciar entre un análisis interactivo de varias páginas y una visión general de alto nivel de una sola página en Power BI.
→Un Informe es una colección de varias páginas de elementos visuales detallados e interactivos construidos a partir de un único conjunto de datos. Un Dashboard es un lienzo único de mosaicos anclados de uno o más informes, que proporciona una vista de un vistazo.
Por qué: Los informes son para análisis en profundidad. Los dashboards son para monitorear métricas clave.
Un único informe de Power BI debe compartirse con varios usuarios, pero cada usuario solo debe ver los datos relevantes para ellos (por ejemplo, un gerente de ventas ve solo los datos de su región).
→Implementar Seguridad a Nivel de Fila (RLS).
Por qué: RLS define reglas de filtro basadas en roles de usuario, aplicando la seguridad de los datos a nivel del modelo de datos para que los usuarios que acceden al mismo informe vean diferentes subconjuntos de datos.
Necesidad de generar informes altamente formateados y con una precisión de píxel (como facturas o estados financieros) optimizados para impresión o exportación a PDF.
→Utilizar Power BI Paginated Reports.
Por qué: Los informes paginados están diseñados para diseños listos para imprimir con control preciso sobre encabezados, pies de página y saltos de página, a diferencia de los informes interactivos estándar de Power BI que son para exploración en pantalla.
Un conjunto de datos de Power BI que contiene miles de millones de filas tarda demasiado en actualizarse. Solo los últimos días de datos cambian con frecuencia.
→Configurar la actualización incremental en el conjunto de datos.
Por qué: La actualización incremental particiona los datos (generalmente por fecha) y solo actualiza las particiones más recientes, reduciendo drásticamente el tiempo de actualización y el uso de recursos para grandes conjuntos de datos.
Un único informe de Power BI necesita combinar datos precargados de alto rendimiento (modo Import) con datos en tiempo real de una fuente operativa (modo DirectQuery).
→Utilizar modelos compuestos de Power BI.
Por qué: Los modelos compuestos permiten que un único conjunto de datos mezcle tablas con diferentes modos de almacenamiento, proporcionando la flexibilidad para equilibrar el rendimiento y la frescura de los datos.
Una organización necesita descubrir, clasificar y catalogar todos los activos de datos en su patrimonio de datos híbrido para permitir la gobernanza y el descubrimiento de datos.
→Utilizar Microsoft Purview.
Por qué: Purview es un servicio unificado de gobernanza de datos que proporciona escaneo automático de datos, un glosario de negocio, clasificación de datos y visualización de linaje de datos de extremo a extremo.