Необходимо создавать, планировать и отслеживать сложные рабочие процессы интеграции данных, которые перемещают и преобразуют данные из различных локальных и облачных источников.
→Используйте Azure Data Factory (ADF).
Почему: ADF — это управляемая облачная служба оркестрации для создания и управления конвейерами ETL/ELT в масштабе, с обширными возможностями подключения и мониторинга.
Источник↗
Конвейеру Azure Data Factory требуется доступ к источнику данных, расположенному локально за корпоративным брандмауэром.
→Установите Self-hosted Integration Runtime (IR) на машине в локальной сети.
Почему: Self-hosted IR действует как безопасный шлюз, позволяя ADF в облаке подключаться к локальным источникам данных и перемещать данные из них, не раскрывая их публичному интернету.
Требуется единая интегрированная платформа для хранилища данных (SQL), аналитики больших данных (Spark), исследования данных (бессерверный SQL) и интеграции данных.
→Используйте Azure Synapse Analytics.
Почему: Synapse предоставляет унифицированное рабочее пространство (Synapse Studio), которое объединяет эти различные аналитические движки, уменьшая сложность и накладные расходы на интеграцию.
Выбор движка SQL-запросов в Synapse Analytics.
→Используйте бессерверный пул SQL для специальных, исследовательских запросов к данным в озере данных с моделью оплаты за запрос. Используйте выделенный пул SQL для высокопроизводительных, предсказуемых рабочих нагрузок хранилища данных с выделенными ресурсами.
Почему: Бессерверный предназначен для непредсказуемого исследования и обнаружения. Выделенный предназначен для производственной BI и отчетности с SLA по производительности.
Необходимо обрабатывать и анализировать высокообъемные потоковые данные в реальном времени из таких источников, как IoT Hub или Event Hubs, для поддержки динамических панелей мониторинга или запуска оповещений.
→Используйте Azure Stream Analytics.
Почему: Stream Analytics — это движок обработки событий в реальном времени, который использует простой SQL-подобный язык запросов для анализа данных в движении с низкой задержкой.
Команде по науке о данных требуется совместная среда на основе ноутбуков для крупномасштабной инженерии данных и машинного обучения с использованием Apache Spark.
→Используйте Azure Databricks.
Почему: Databricks предоставляет оптимизированную среду выполнения Spark, совместные ноутбуки и интегрированные возможности ML (MLflow), что делает ее ведущей платформой для расширенной аналитики и ML в Azure.
Необходимо принимать миллионы событий в секунду из таких источников, как мобильные приложения, веб-телеметрия или устройства IoT, для обработки в реальном времени.
→Используйте Azure Event Hubs.
Почему: Event Hubs — это платформа потоковой передачи больших данных, разработанная для высокопроизводительной передачи событий. Она действует как "входная дверь" для потоковых данных, разделяя производителей и потребителей.
Организация хочет единую унифицированную аналитическую платформу SaaS, которая объединяет инженерию данных, науку о данных, хранение данных и BI с минимальным управлением инфраструктурой.
→Используйте Microsoft Fabric.
Почему: Fabric предоставляет комплексное аналитическое решение на основе SaaS, построенное на едином озере данных (OneLake). Оно упрощает архитектуру и уменьшает накладные расходы на интеграцию по сравнению с построением с использованием отдельных служб PaaS.
Источник↗
В рамках Microsoft Fabric требуется единый артефакт для хранения данных в открытом формате Delta Lake, который может быть доступен как движками Spark (для инженерии данных), так и движками SQL (для BI).
→Используйте Microsoft Fabric Lakehouse.
Почему: Lakehouse — это основной архитектурный шаблон в Fabric. Он сочетает масштабируемость и гибкость озера данных с гарантиями транзакций и возможностями SQL-запросов хранилища данных.
Отчет Power BI в Microsoft Fabric должен запрашивать большие объемы данных напрямую из OneLake с производительностью режима импорта, но с актуальностью данных DirectQuery.
→Используйте режим Direct Lake в Power BI.
Почему: Direct Lake — это уникальная функция Fabric, которая загружает файлы Parquet/Delta непосредственно в память движка Power BI по требованию, избегая дублирования данных и задержки запросов, обеспечивая при этом доступ к данным в почти реальном времени.
Бизнес-пользователям необходимо подключаться к различным источникам данных, создавать интерактивные панели мониторинга и отчеты, а также обмениваться аналитическими данными внутри организации.
→Используйте Power BI.
Почему: Power BI — это служба бизнес-аналитики Microsoft для создания интерактивных визуализаций данных. Используйте Power BI Desktop для создания и Power BI Service для совместного использования и сотрудничества.
Разграничение между многостраничным интерактивным анализом и одностраничным общим обзором в Power BI.
→Отчет — это многостраничная коллекция подробных, интерактивных визуальных элементов, построенных на основе одного набора данных. Панель мониторинга — это единый холст плиток, закрепленных из одного или нескольких отчетов, предоставляющий краткий обзор.
Почему: Отчеты предназначены для глубокого анализа. Панели мониторинга предназначены для отслеживания ключевых показателей.
Единый отчет Power BI должен быть доступен нескольким пользователям, но каждый пользователь должен видеть только те данные, которые относятся к нему (например, менеджер по продажам видит только данные своего региона).
→Реализуйте безопасность на уровне строк (RLS).
Почему: RLS определяет правила фильтрации на основе ролей пользователей, обеспечивая безопасность данных на уровне модели данных, так что пользователи, обращающиеся к одному и тому же отчету, видят разные подмножества данных.
Необходимо генерировать высокоформатированные, пиксель-идеальные отчеты (например, счета-фактуры или финансовые отчеты), оптимизированные для печати или экспорта в PDF.
→Используйте Power BI Paginated Reports.
Почему: Отчеты с разбивкой на страницы предназначены для макетов, готовых к печати, с точным контролем над заголовками, нижними колонтитулами и разрывами страниц, в отличие от стандартных интерактивных отчетов Power BI, которые предназначены для просмотра на экране.
Обновление набора данных Power BI, содержащего миллиарды строк, занимает слишком много времени. Только данные за последние несколько дней часто меняются.
→Настройте инкрементное обновление для набора данных.
Почему: Инкрементное обновление разбивает данные на разделы (обычно по дате) и обновляет только самые последние разделы, что значительно сокращает время обновления и использование ресурсов для больших наборов данных.
Единый отчет Power BI должен комбинировать предварительно загруженные, высокопроизводительные данные (режим Import) с данными в реальном времени из операционного источника (режим DirectQuery).
→Используйте составные модели Power BI.
Почему: Составные модели позволяют одному набору данных смешивать таблицы с различными режимами хранения, обеспечивая гибкость в балансировании производительности и актуальности данных.
Организации необходимо обнаруживать, классифицировать и каталогизировать все активы данных в своей гибридной среде данных для обеспечения управления данными и их обнаружения.
→Используйте Microsoft Purview.
Почему: Purview — это унифицированная служба управления данными, которая обеспечивает автоматическое сканирование данных, бизнес-глоссарий, классификацию данных и сквозную визуализацию происхождения данных.