Справочник — PMLE Google Cloud Professional Machine Learning Engineer

Последняя проверка: май 2026 г.

Сжатый справочник архитектурных шаблонов, проверяемых на экзамене PMLE. Читайте сверху вниз или переходите к нужному разделу.

Архитектура решений машинного обучения

Создание моделей классификации, регрессии или рекомендаций на больших табличных наборах данных в BigQuery для команд с сильными навыками SQL.

Используйте BigQuery ML с синтаксисом SQL (например, `CREATE MODEL ... OPTIONS(model_type='BOOSTED_TREE_CLASSIFIER')`). Включите объяснимость с помощью `EXPLAIN_PREDICT`.

Почему: Позволяет избежать перемещения данных и использует существующие навыки SQL для быстрой разработки. Сохраняет управление данными в BigQuery и обеспечивает интегрированную объяснимость.

Источник

Извлечение структурированных данных (например, имен, дат, кодов) из неструктурированных документов, таких как формы или счета, с минимальным опытом в области машинного обучения.

Используйте Document AI с предварительно обученным или пользовательским процессором. Обучите пользовательский процессор с размеченными образцами документов для специализированных макетов.

Почему: Специализированный управляемый сервис для анализа документов, который превосходит создание пользовательских OCR и логики анализа с нуля.

Источник

Анализ неструктурированных данных, таких как аудио или текст, для определения тональности, сущностей или тем без обучения пользовательской модели.

Объединяйте предварительно обученные API. Пример: API Speech-to-Text для транскрипции, затем API Natural Language для анализа сущностей и тональности.

Почему: Быстрейший выход на рынок для распространенных сценариев использования. Использует модели, обученные Google, без необходимости разметки данных или обучения моделей.

Создание высококачественной пользовательской модели изображений, видео или табличной модели с размеченными данными, но ограниченным опытом кодирования в области машинного обучения.

Используйте Vertex AI AutoML (например, AutoML Vision Object Detection). Предоставьте размеченные данные и позвольте сервису управлять поиском архитектуры и обучением.

Почему: Сочетает потребности пользовательских моделей с простотой использования. Превосходит общие предварительно обученные API для пользовательских задач (например, идентификация конкретных продуктов).

Источник

Создание диалогового ИИ или помощника по знаниям, который отвечает на вопросы на основе большого корпоративного корпуса документов.

Реализуйте паттерн Retrieval-Augmented Generation (RAG). Используйте Vertex AI Vector Search для поиска релевантных фрагментов документов и передавайте их в качестве контекста модели Gemini для генерации обоснованных ответов.

Почему: Основывает ответы больших языковых моделей (LLM) на фактических данных, уменьшая галлюцинации и предоставляя ссылки. Более масштабируемо и актуально, чем тонкая настройка для получения знаний.

Создание корпоративного чат-бота или поисковой системы с минимальным количеством кода, подключенной к внутренним источникам данных, таким как Cloud Storage или BigQuery.

Используйте Vertex AI Agent Builder. Настройте коннекторы хранилищ данных к вашей базе знаний и используйте инструменты (вызов функций) для поиска данных в реальном времени.

Почему: Решение с низким объемом кода, которое автоматизирует создание конвейера RAG, включая синтаксический анализ документов, разбиение на фрагменты, внедрение и извлечение, для быстрого развертывания.

Выполнение обнаружения дефектов в реальном времени на высокообъемных видеопотоках с производственных камер с задержкой менее одной секунды.

Разверните оптимизированные модели на граничных устройствах с помощью Vertex AI Edge Manager. Выполняйте инференс локально и отправляйте только метаданные дефектов в облако для мониторинга.

Почему: Обрабатывает требования к высокой пропускной способности и низкой задержке, которые невыполнимы или слишком дороги при использовании только облачного подхода.

Сотрудничество и управление данными/моделями

Управление признаками машинного обучения для обеспечения согласованности между пакетным обучением и обслуживанием в реальном времени, предотвращая расхождение между обучением и обслуживанием.

Используйте Vertex AI Feature Store. Определите группы признаков с различными расписаниями синхронизации (пакетная, потоковая). Используйте запросы с "путешествием во времени" для получения корректных обучающих данных на определенный момент времени.

Почему: Предоставляет централизованное хранилище признаков, обеспечивает согласованные определения признаков и решает проблему корректности обучающих данных на определенный момент времени.

Источник

Внедрение управления моделями с версионированием, рабочими процессами утверждения и аудируемой историей развертывания.

Используйте Vertex AI Model Registry для версионирования и хранения моделей. Связывайте с экспериментами и наборами данных. Используйте IAM и псевдонимы версий (например, "production") для управления утверждениями развертывания.

Почему: Централизует управление моделями, обеспечивая управление, воспроизводимость и возможности безопасного отката. Интегрируется с конвейерами CI/CD.

Систематическое отслеживание и сравнение экспериментов машинного обучения, включая гиперпараметры, метрики и артефакты, для обеспечения воспроизводимости.

Используйте Vertex AI Experiments. Автоматически регистрируйте параметры и метрики из заданий обучения. Связывайте артефакты и наборы данных для полного отслеживания происхождения.

Почему: Предоставляет структурированную, запрашиваемую систему для управления экспериментами, выходящую за рамки электронных таблиц или ручных журналов для лучшего сотрудничества.

Обучение и обслуживание моделей на конфиденциальных данных (например, PHI, PII) при соблюдении строгих требований к месту хранения данных и безопасности.

Настройте Vertex AI в периметре VPC Service Controls. Используйте Private Endpoints для сетевой изоляции и Customer-Managed Encryption Keys (CMEK) для данных в состоянии покоя.

Почему: Создает безопасный сетевой периметр, который предотвращает утечку данных и гарантирует, что вся обработка и передача данных происходят в контролируемых границах.

Контроль версий обучающих данных для обеспечения воспроизводимости экспериментов и возможности отслеживания моделей до точного снимка данных, использованного для обучения.

Используйте управляемые наборы данных Vertex AI с версионированием. Создавайте новые версии наборов данных для значительных изменений данных и связывайте определенные версии с запусками обучения.

Почему: Предоставляет неизменяемые, версионированные снимки данных с автоматическим отслеживанием происхождения в ML Metadata, что крайне важно для соответствия требованиям и отладки.

Разметка большого, неразмеченного набора данных для обучения модели с ограниченным бюджетом на ручную аннотацию.

Реализуйте цикл активного обучения. Обучите начальную модель на небольшой размеченной подвыборке, затем используйте ее показатели неопределенности для приоритизации наиболее информативных образцов для ручной разметки.

Почему: Максимизирует ценность каждого размеченного человеком образца, сокращая затраты и время на разметку по сравнению со случайной выборкой или исчерпывающей разметкой.

Масштабирование прототипов в модели машинного обучения

Сокращение времени обучения для большой модели на массивном наборе данных путем масштабирования на нескольких GPU или узлах.

Используйте стратегию синхронного параллелизма данных, такую как `MultiWorkerMirroredStrategy` TensorFlow. Упакуйте обучающий код и отправьте его в Vertex AI Training с конфигурацией для нескольких рабочих узлов.

Почему: Стандартный, эффективный метод масштабирования большинства задач обучения. Vertex AI управляет настройкой кластера и синхронизацией, требуя минимальных изменений в коде.

Обучение базовой модели (LLM), которая слишком велика, чтобы поместиться в память одного ускорителя (например, >50 млрд параметров).

Используйте 3D-параллелизм: тензорный параллелизм (разделение слоев внутри узлов), конвейерный параллелизм (этапирование слоев между узлами) и параллелизм данных (репликация по всему поду). Обучение на TPU-подах.

Почему: Единственный реализуемый способ обучения моделей, которые превышают память одного устройства. Каждое измерение параллелизма устраняет свое узкое место масштабирования (память, вычисления, сеть).

Минимизация затрат на длительные, отказоустойчивые задачи обучения (например, >12 часов).

Используйте Spot VM (прерываемые) для обучения, которые предлагают до 80% экономии затрат. Внедрите частое создание контрольных точек в Cloud Storage и настройте задачу на автоматический перезапуск.

Почему: Значительно сокращает затраты на обучение. Создание контрольных точек гарантирует минимальную потерю прогресса при прерывании, что делает это надежной стратегией для несрочных задач.

Эффективный поиск оптимальных гиперпараметров для модели с большим и сложным пространством поиска.

Используйте настройку гиперпараметров Vertex AI (Vizier) с байесовской оптимизацией. Определите пространство поиска и целевую метрику. Включите раннюю остановку для отсечения бесперспективных попыток.

Почему: Байесовская оптимизация более эффективна с точки зрения выборки, чем поиск по сетке или случайный поиск, находя лучшие конфигурации за меньшее количество попыток, экономя время и деньги.

Для задачи обучения требуются определенные версии библиотек, пользовательские ядра CUDA или частные пакеты, недоступные в предустановленных контейнерах.

Создайте пользовательский контейнер Docker со всеми зафиксированными зависимостями. Загрузите контейнер в Artifact Registry и сошлитесь на него в задаче обучения Vertex AI.

Почему: Обеспечивает полный контроль над средой выполнения, гарантируя воспроизводимость и обработку сложных зависимостей, с которыми не справляются предустановленные контейнеры.

Обучение модели на очень большом наборе данных BigQuery без задержки или затрат на экспорт его в Cloud Storage.

Используйте BigQuery Storage Read API непосредственно из контейнера обучения. Это обеспечивает высокую пропускную способность, параллельную потоковую передачу данных в загрузчики данных TensorFlow или PyTorch.

Почему: Самый быстрый и эффективный способ чтения больших наборов данных BQ для обучения. Позволяет избежать промежуточного хранения и узких мест ввода/вывода.

Источник

Обслуживание и масштабирование моделей

Обслуживание модели с высокой или переменной нагрузкой (например, пики 10 000 RPS) при сохранении низкой задержки и оптимизации затрат.

Разверните модель в конечной точке Vertex AI с типом машины GPU. Настройте автомасштабирование с минимальным и максимальным количеством реплик в зависимости от трафика или использования.

Почему: Автоматически масштабирует ресурсы в соответствии со спросом, обеспечивая производительность в пиковые нагрузки и экономию средств в периоды затишья. GPU обеспечивают низкую задержку для сложных моделей.

Обслуживание прогнозов модели для глобальной базы пользователей с минимальной задержкой в каждом регионе.

Разверните модель в региональных конечных точках Vertex AI в каждой целевой географии (например, США, ЕС, Азиатско-Тихоокеанский регион). Используйте глобальный балансировщик нагрузки для маршрутизации пользователей к ближайшей конечной точке.

Почему: Минимизирует сетевую задержку, обслуживая запросы из инфраструктуры, расположенной близко к пользователю. Крайне важно для глобальных приложений, чувствительных к задержкам.

Безопасное развертывание новой версии модели путем постепенного переключения трафика с одновременным мониторингом производительности.

Разверните новую версию в той же конечной точке Vertex AI, что и текущая модель. Используйте разделение трафика, чтобы отправлять небольшой процент трафика (например, 5%) новой версии, постепенно увеличивая его.

Почему: Включает «канареечные» развертывания и A/B-тестирование. Позволяет безопасно проверять новые модели под реальным производственным трафиком с возможностью немедленного отката.

Обслуживание рекомендаций в реальном времени из каталога, содержащего миллионы элементов, с задержкой менее 50 мс.

Реализуйте двухэтапную архитектуру: 1) Этап быстрого извлечения с использованием Vertex AI Vector Search (ANN) для поиска K-лучших кандидатов. 2) Этап точного ранжирования, который применяет более сложную модель к небольшому набору кандидатов.

Почему: Балансирует точность и задержку. Быстрое извлечение ANN сокращает огромное пространство элементов, позволяя вычислительно затратному ранжировщику работать с управляемым подмножеством.

Снижение задержки вывода модели для соответствия строгим требованиям реального времени (<20 мс).

Примените методы оптимизации модели. Скомпилируйте модель с TensorRT для GPU или OpenVINO для CPU. Используйте квантование (например, INT8) для уменьшения точности и увеличения пропускной способности.

Почему: Эти методы оптимизируют граф модели и используют аппаратно-специфическое ускорение, часто обеспечивая снижение задержки в 2-5 раз без существенной потери точности.

Экономичное обслуживание десятков моделей с низким трафиком без выделения отдельных ресурсов для каждой.

Используйте конечную точку с несколькими моделями для совместного размещения нескольких моделей на общем наборе ресурсов обслуживания. Vertex AI динамически загружает модели на основе входящих запросов.

Почему: Значительно сокращает затраты на обслуживание многих моделей с нечастым трафиком за счет улучшения использования ресурсов по сравнению с выделенными конечными точками для одной модели.

Уменьшение задержки генерации больших языковых моделей (LLM) для интерактивных приложений.

Реализуйте спекулятивное декодирование. Используйте меньшую, более быструю "черновую" модель для генерации токенов-кандидатов, которые затем проверяются за один проход более крупной, более точной моделью.

Почему: Значительно ускоряет генерацию токенов, заменяя последовательное декодирование параллельной проверкой, что уменьшает основное узкое место в обслуживании LLM.

Автоматизация и оркестрация конвейеров машинного обучения

Автоматизация многошагового рабочего процесса машинного обучения, включая проверку данных, предварительную обработку, обучение, оценку и условное развертывание.

Определите рабочий процесс как DAG, используя Vertex AI Pipelines с SDK Kubeflow Pipelines (KFP). Используйте предварительно созданные или пользовательские компоненты для каждого шага.

Почему: Предоставляет управляемый, бессерверный сервис оркестрации для машинного обучения со встроенным отслеживанием артефактов, происхождения, кэшированием и условным выполнением.

Источник

Предотвращение попадания некачественных данных в конвейер обучения, что приводит к снижению качества модели.

Добавьте компонент TensorFlow Data Validation (TFDV) на ранней стадии конвейера. Сравните статистику входящих данных с базовой схемой и остановите конвейер, если обнаружено смещение или аномалии.

Почему: Действует как автоматический шлюз качества, активно выявляя проблемы с данными до того, как они потратят вычислительные ресурсы и приведут к ошибочной модели.

Автоматический запуск переобучения модели при поступлении новых данных или при обнаружении дрейфа модели.

Используйте событийно-ориентированную архитектуру. Сообщение Pub/Sub (например, от обновления Cloud Storage или предупреждения о дрейфе) запускает Cloud Function или триггер Eventarc, который начинает выполнение конвейера Vertex AI.

Почему: Создает отзывчивую, эффективную систему, которая переобучает модели только при необходимости, обеспечивая актуальность модели без расточительных плановых запусков.

Автоматизация перевода модели в производство только в том случае, если новая модель превосходит текущую производственную модель по ключевым бизнес-метрикам.

В конвейере Vertex AI добавьте компонент оценки, который сравнивает новую модель с базовой производственной моделью. Используйте `dsl.Condition` для выполнения компонента развертывания только в том случае, если новая модель соответствует или превышает пороговое значение производительности.

Почему: Автоматизирует финальный шлюз качества в конвейере MLOps, предотвращая регрессии производительности и гарантируя развертывание только превосходящих моделей.

Стандартизация общих задач (например, разработка признаков, оценка) в нескольких конвейерах машинного обучения и командах.

Упакуйте общую логику в версионированные, контейнеризированные пользовательские компоненты. Храните их в Artifact Registry и делитесь ими между проектами.

Почему: Способствует повторному использованию кода, обеспечивает согласованность и упрощает обслуживание. Команды могут создавать сложные конвейеры из библиотеки надежных, стандартизированных компонентов.

Ускорение разработки конвейеров и снижение затрат за счет предотвращения избыточных вычислений при повторных запусках.

Включите кэширование выполнения в Vertex AI Pipelines. Сервис автоматически повторно использует выходные данные компонента, если его входные данные и реализация не изменились.

Почему: Значительно ускоряет итеративную разработку, позволяя перезапускать конвейер и выполнять только те компоненты, которые вы изменили.

Внедрение рабочего процесса CI/CD для автоматического тестирования и развертывания изменений в коде конвейера машинного обучения.

Используйте Cloud Build, запускаемый при отправке изменений в репозиторий Git. Процесс сборки запускает модульные тесты компонентов, компилирует конвейер и развертывает его в промежуточной или производственной среде.

Почему: Применяет лучшие практики разработки программного обеспечения к MLOps, обеспечивая быстрые, надежные и автоматизированные обновления производственных систем машинного обучения.

Мониторинг и обслуживание решений машинного обучения

Обнаружение снижения производительности производственной модели из-за изменений во входящих данных или прогнозируемых результатах.

Настройте Vertex AI Model Monitoring. Настройте задачу для обнаружения расхождения между обучением и обслуживанием (изменения распределения входных данных по сравнению с обучением) и дрейфа прогнозов (изменения распределения выходных данных со временем).

Почему: Предоставляет автоматизированную систему раннего предупреждения о деградации модели, позволяя заранее переобучать или вмешиваться до того, как бизнес-метрики будут значительно затронуты.

Источник

Производительность модели снижается, но распределения входных признаков остаются стабильными (дрейф данных не обнаружен).

Внедрите мониторинг результатов прогнозов по отношению к отложенным истинным меткам. Падение точности или других метрик оценки указывает на дрейф концепции, когда изменилась взаимосвязь между признаками и целевым значением.

Почему: Одного мониторинга дрейфа признаков недостаточно. Дрейф концепции требует оценки прогнозов модели по отношению к фактическим значениям для обнаружения изменений в базовых закономерностях.

Предоставление объяснений для отдельных прогнозов модели для соответствия нормативным требованиям или для доверия заинтересованных сторон.

Включите Vertex AI Explainable AI на развернутой конечной точке. Используйте методы, такие как Sampled Shapley или Integrated Gradients, для получения атрибуции признаков для каждого прогноза.

Почему: Предоставляет локальные объяснения для каждого прогноза, которые определяют, какие признаки способствовали принятию решения, что крайне важно для аудита и отладки моделей "черного ящика".

Обеспечение справедливой работы модели для различных сегментов пользователей (например, демографических) и обнаружение скрытых предубеждений.

Настройте мониторинг модели для вычисления и отслеживания метрик производительности (например, точности, частоты ошибок) на срезах данных, определенных чувствительными атрибутами.

Почему: Агрегированные метрики могут скрывать низкую производительность для подгрупп меньшинств. Срезовый анализ крайне важен для выявления и смягчения проблем справедливости.

Предотвращение ненадежных, излишне уверенных прогнозов модели на входах, которые принципиально отличаются от ее обучающих данных.

Реализуйте модель обнаружения отклонений от распределения (OOD) (например, автокодировщик) наряду с основной моделью. Высокая ошибка реконструкции помечает вход как OOD, запуская логику отката.

Почему: Обеспечивает механизм безопасности против сдвига домена, повышая устойчивость модели путем определения того, когда модель работает вне своей области знаний.

Документирование предполагаемого использования, ограничений, обучающих данных и оценки справедливости модели как для технических, так и для нетехнических заинтересованных сторон.

Создайте карточку модели, используя фреймворк Google. Включите разделы с информацией о модели, предполагаемом использовании, этических соображениях, количественном анализе (включая срезовые метрики) и ограничениях.

Почему: Стандарт для ответственной документации ИИ, который способствует прозрачности, подотчетности и правильному использованию моделей в организации.

Ведение доступного для поиска и аудита журнала всех запросов и ответов прогнозов для обеспечения соответствия требованиям и отладки.

Включите логирование доступа на конечной точке Vertex AI. Настройте экспорт журналов в BigQuery для структурированного, долгосрочного хранения и анализа.

Почему: BigQuery предоставляет масштабируемую и запрашиваемую платформу для создания аудиторских следов, анализа тенденций прогнозирования и объединения прогнозов с истинными данными.

Архитектура решений машинного обучения

Источник

Сотрудничество и управление данными/моделями

Источник

Масштабирование прототипов в модели машинного обучения

Минимизация затрат на длительные, отказоустойчивые задачи обучения (например, >12 часов).

Эффективный поиск оптимальных гиперпараметров для модели с большим и сложным пространством поиска.

Обучение модели на очень большом наборе данных BigQuery без задержки или затрат на экспорт его в Cloud Storage.

Источник

Обслуживание и масштабирование моделей

Обслуживание прогнозов модели для глобальной базы пользователей с минимальной задержкой в каждом регионе.

Снижение задержки вывода модели для соответствия строгим требованиям реального времени (<20 мс).

Экономичное обслуживание десятков моделей с низким трафиком без выделения отдельных ресурсов для каждой.

Уменьшение задержки генерации больших языковых моделей (LLM) для интерактивных приложений.

Автоматизация и оркестрация конвейеров машинного обучения

Источник

Автоматический запуск переобучения модели при поступлении новых данных или при обнаружении дрейфа модели.

Мониторинг и обслуживание решений машинного обучения

Источник