🏠Главная 📚Сертификации 📱Мобильные приложения

🎓Об экзамене

✍️Блог 📊Прогресс 📅Календарь 💬Поддержка

Политика конфиденциальности Условия использования Свяжитесь с нами Политика файлов cookie Отказ от ответственности Доступность DMCA / Авторское право

Перейти к содержимому

DEA-C01Справочник

Справочник

AWS Certified Data Engineer Associate

Последняя проверка: май 2026 г.

Сжатый справочник архитектурных шаблонов, проверяемых на экзамене DEA-C01. Читайте сверху вниз или переходите к нужному разделу.

Разделы

Прием и преобразование данных35 записей
Управление хранилищем данных26 записей
Операции и поддержка данных20 записей
Безопасность и управление данными17 записей

Прием и преобразование данных

Выберите сервис Kinesis для потокового приема данных.

Обработка данных за доли секунды, управляемая потребителем → Kinesis Data Streams. Полностью управляемая доставка в S3/Redshift/OpenSearch с опциональной конвертацией формата → Kinesis Data Firehose.

Почему: KDS хранит записи (от 24 часов до 365 дней) и поддерживает нескольких потребителей. Firehose не имеет возможности повторного воспроизведения; он обменивает повторное воспроизведение на доставку без операций.

Источник

Поток сталкивается с ошибками ProvisionedThroughputExceeded в пиковые нагрузки.

Решардирование. Каждый шард поддерживает прием 1 МБ/с или 1000 записей/с, исходящий трафик 2 МБ/с. Используйте равномерные ключи партиционирования; включите Enhanced Fan-Out для скорости >2 МБ/с на потребителя.

Почему: Горячие ключи партиционирования концентрируют трафик на одном шарде. Случайные или хеш-основанные ключи распределяют нагрузку.

Источник

Потоковая нагрузка нестабильна и непредсказуема; ручное решардирование вызывает операционные трудности.

Kinesis Data Streams в режиме емкости по запросу. Автоматически масштабируется до 200 МБ/с по умолчанию; оплата за объем данных.

Источник

Несколько потребителей, читающих один и тот же поток, достигают лимита чтения 2 МБ/с/шард.

Enhanced Fan-Out. Каждый потребитель получает выделенные 2 МБ/с/шард через push-модель HTTP/2 SubscribeToShard.

Источник

Максимизировать пропускную способность приема данных из приложения на стороне производителя.

Kinesis Producer Library (KPL) с агрегацией + коллекцией. Объединяет несколько пользовательских записей в одну запись Kinesis размером до 1 МБ; снижает стоимость PUT-запросов.

Почему: PutRecord для одной записи имеет ограничение по скорости и является дорогим при 50 тыс. событий/с. KPL агрегирует данные на стороне клиента.

Источник

Разместить JSON-кликстрим в S3 в формате Parquet, секционированный по времени события.

Firehose с конвертацией формата записей (JSON → Parquet) с использованием таблицы Glue Data Catalog + динамическое партиционирование по временной метке события.

Почему: Parquet + партиционирование значительно снижает стоимость сканирования в Athena. Динамическое партиционирование избегает отдельного шага ETL.

Источник

Некоторые записи не проходят трансформацию или доставку в Firehose; необходимо их сохранить для повторного воспроизведения.

Настройте резервное копирование S3 с `AllData` или `FailedDataOnly`. Сбойные записи попадают в настроенный префикс с метаданными об ошибках.

Источник

Обеспечьте отсутствие потери данных в MSK, если сбойнет AZ брокера.

Фактор репликации ≥ 3 в 3-х AZ и `min.insync.replicas=2` с `acks=all` для производителя. Включите Multi-AZ через KRaft без ZooKeeper или размещение брокеров в 3-х AZ.

Источник

Потоковая передача данных из MSK в S3, OpenSearch или RDS без управления кластером Kafka Connect.

MSK Connect с управляемым коннектором (Confluent S3 Sink, Debezium для CDC). Автоматически масштабирует воркеры по WCU.

Источник

Топик хранит последнюю версию записи по каждому ключу; старые версии могут быть отброшены.

Установите `cleanup.policy=compact` для топика. Kafka сохраняет самое последнее значение для каждого ключа; более старые записи с тем же ключом подлежат компактированию.

Источник

Регулярная еженедельная передача 10 ТБ данных из локальной NFS в S3 через Direct Connect.

AWS DataSync с локальным агентом + запланированная задача. Проверяет целостность данных, поддерживает инкрементальную передачу, параллельную работу.

Почему: DataSync быстрее, чем aws-cli sync, и нативно обрабатывает регулирование пропускной способности, повторные попытки и верификацию.

Источник

Извлекать данные из SaaS API (Salesforce, ServiceNow, Zendesk) в S3 по расписанию.

AWS AppFlow. Управляемые коннекторы, обработка OAuth, запуск по расписанию или по событию, запись Parquet в S3.

Источник

Реплицировать текущие изменения из локального SQL Server в Aurora MySQL с минимальным временем простоя.

AWS DMS с задачей полной загрузки + CDC. Используйте Schema Conversion Tool (SCT) для преобразования гетерогенных схем/кода перед DMS.

Источник

Экземпляр репликации DMS выходит из строя — репликация прерывается.

Включите Multi-AZ на экземпляре репликации. Синхронный резервный экземпляр в другой AZ; автоматическое переключение.

Источник

Требуется аналитика почти в реальном времени по данным OLTP Aurora без конвейера ETL.

Интеграция Aurora zero-ETL с Redshift. Непрерывная репликация данных Aurora в Redshift; запросы видят новые данные в течение секунд.

Почему: Устраняет необходимость в конвейерах DMS / Glue / кастомных CDC для сценариев OLTP-в-хранилище.

Источник

Переместить 100 ТБ исторического архива из локального хранилища в S3; пропускная способность ограничена.

AWS Snowball Edge Storage Optimized. Физическое устройство доставляется на место; данные копируются; устройство отправляется обратно.

Источник

Исходный JSON содержит вложенные массивы; последующему реляционному анализу требуются плоские строки.

Преобразование `Relationalize` в Glue PySpark (или `explode()` в DataFrame) преобразует вложенные массивы в отдельные строки/таблицы.

Источник

Glue Crawler определяет неоднозначные типы (`choice<int,string>`) из неструктурированных CSV-данных.

Примените преобразование `ResolveChoice` — приведите к определенному типу или спроецируйте в структуру. Или исправьте в источнике, принудительно задав схему.

Источник

Задача Glue ETL запускается ежечасно на растущих данных S3; необходимо обрабатывать только новые файлы.

Включите закладки задач Glue. Glue отслеживает обработанные файлы/партиции и пропускает их при повторных запусках.

Почему: Позволяет избежать повторной обработки всего набора данных. Требуется для инкрементальных ETL-конвейеров.

Источник

Задача Glue Spark завершается с ошибкой OutOfMemoryError на драйвере во время крупных агрегаций.

Переключитесь на воркеры G.2X или G.4X (больше памяти драйвера) или включите предикаты push-down `--enable-glue-datacatalog` для уменьшения объема перемешиваемых данных.

Источник

Запустить непрерывный Spark Structured Streaming против источника Kinesis с управляемой инфраструктурой.

Потоковая задача AWS Glue ETL. Под капотом Spark Structured Streaming; контрольные точки в S3.

Источник

Бизнес-аналитику необходимо очищать и преобразовывать данные без написания кода.

AWS Glue DataBrew. Визуальные преобразования на основе рецептов (более 250), профилирование, lineage. Вывод в S3, Redshift, RDS.

Источник

Запускать задачу Glue ETL только после успешного обновления Glue Data Catalog краулером.

Рабочий процесс Glue с условными триггерами. Успех краулера → запустить задачу ETL. Сбой → пропустить / оповестить.

Источник

Краулер определяет все столбцы CSV как `string` — нужны типы даты и числа.

Добавьте пользовательский классификатор Glue (шаблон Grok или подсказка столбца) перед сканированием. В качестве альтернативы предварительно запишите строку заголовка с явными типами.

Источник

Нескольким производителям/потребителям в Kafka требуется эволюция схемы без нарушения совместимости друг с другом.

AWS Glue Schema Registry с правилами совместимости (BACKWARD/FORWARD/FULL). Производители регистрируют схему; потребители получают + проверяют.

Источник

Выберите между EMR и Glue для Spark ETL.

Длительно работающий кастомный Spark с глубокой настройкой, несколько фреймворков (Hive, Presto, Flink) → EMR. Бессерверный ETL с оплатой за задание и интеграцией с Glue Data Catalog → Glue. Нестабильный/непредсказуемый Spark → EMR Serverless.

Источник

Периодические задачи Spark/Hive; требуется отсутствие операций с кластером и холостого простоя вычислений.

EMR Serverless. Предварительно инициализированные пулы емкости для запусков с низкой задержкой; масштабируется для каждого задания; оплата за vCPU-час.

Источник

Сочетание узлов core по запросу и узлов task в режиме Spot для экономичной оптимизации EMR.

Парки инстансов (Instance Fleets) с целевой емкостью по типу. Парк core узлов по запросу для стабильности HDFS; парк task узлов в режиме Spot с разнообразными типами инстансов.

Источник

Стандартизировать на Kubernetes; нужно, чтобы задачи EMR Spark использовали кластер совместно с другими нагрузками.

EMR on EKS. Spark работает как поды на существующем кластере EKS; инфраструктура и роли IAM используются совместно через IRSA.

Источник

Потоковая обработка с сохранением состояния, агрегацией по окнам и семантикой "точно один раз".

Kinesis Data Analytics для Apache Flink. Управляемая среда выполнения Flink; контрольные точки в S3; автоматическое масштабирование.

Источник

Легковесное преобразование каждой записи в потоке Kinesis (<1 мс каждая).

Lambda с Event Source Mapping на KDS. Настройте `BatchSize`, `MaximumBatchingWindowInSeconds` и `ParallelizationFactor`.

Почему: Lambda дешевле, чем KCL/Glue Streaming, для небольших порекордных задач.

Источник

Шаг Step Functions иногда завершается сбоем из-за временного регулирования; повторная попытка, затем оповещение.

Добавьте блок `Retry` с `ErrorEquals: ["Lambda.ThrottlingException", "States.TaskFailed"]`, `IntervalSeconds`, `MaxAttempts`, `BackoffRate=2`. А также `Catch` для состояния уведомления.

Источник

Параллельная обработка 500 000 JSON-файлов с помощью преобразования Lambda.

Распределенное состояние Map в Step Functions с `MaxConcurrency` и ItemReader из S3. Распараллеливание на тысячи параллельных вызовов Lambda.

Источник

Сложный DAG с межсервисными зависимостями (Glue + Redshift COPY + Lambda + email) и требованиями к lineage.

Amazon MWAA (Managed Workflows for Apache Airflow). Нативные операторы Airflow для сервисов AWS; синхронизация DAG через Git.

Источник

Необходимо откатить изменения DAG, если развертывание вызывает сбои.

Храните DAG в версионированном бакете S3 + синхронизация через версионирование S3. Или поддерживайте репозиторий DAG в Git с одной средой на ветку + синхронизация S3 через CI.

Источник

Управление хранилищем данных

Необработанные данные активно используются 30 дней, случайный доступ в течение следующих 90 дней, архив на 7 лет.

Жизненный цикл S3: 0–30 дней Standard, переход на 30-й день в Standard-IA, переход на 120-й день в Glacier Flexible Retrieval, истечение срока действия через 7 лет.

Источник

Непредсказуемые паттерны доступа; ручная политика жизненного цикла — неправильный выбор.

S3 Intelligent-Tiering. Автоматически перемещает объекты между Frequent / Infrequent / Archive Instant Access / Archive / Deep Archive на основе паттерна доступа. Стоимость мониторинга за объект; без платы за извлечение в Frequent/IA.

Источник

Запросы Athena в озере данных медленные; партиция содержит тысячи JSON-файлов размером 1-5 КБ.

Скомпонуйте маленькие файлы с помощью задачи Glue/EMR в файлы Parquet размером ~256 МБ. Используйте Iceberg `OPTIMIZE` или компактирование Hudi для управляемых форматов таблиц.

Почему: Накладные расходы Athena/Spark на каждый файл доминируют при работе с крошечными файлами. Оптимальный размер составляет ~128–512 МБ Parquet.

Источник

Один бакет; нескольким командам требуются различные паттерны доступа, ограниченные префиксами.

Точки доступа S3 (S3 Access Points) — именованная конечная точка для каждой команды со своей политикой, привязанной к префиксу. Проще, чем одна гигантская политика бакета.

Источник

Различным потребителям требуются разные представления одного и того же объекта S3 (отредактированные PII, сводные).

Точка доступа S3 Object Lambda. GET-запрос вызывает Lambda, которая трансформирует объект на лету; потребитель видит преобразованное представление.

Источник

Требуются ACID-транзакции, эволюция схемы и "путешествия во времени" для озера данных S3.

Таблицы Apache Iceberg (Glue Catalog + хранилище S3). Атомарные коммиты, MERGE/UPDATE/DELETE, изоляция снимков, эволюция партиций.

Почему: S3 в стиле Hive (только добавление) не поддерживает обновления на уровне строк. Iceberg/Hudi/Delta решают эту проблему.

Источник

Несколько записывающих и читающих сторон для таблицы в озере данных; требуется транзакционная согласованность и контроль доступа на уровне строк.

Управляемые таблицы Lake Formation (на базе Iceberg) с LF-Tags для разрешений.

Источник

Athena, Redshift Spectrum, EMR и Glue ETL нуждаются в общем хранилище метаданных.

AWS Glue Data Catalog. Единый Hive-совместимый метастор, используемый каждым сервисом аналитики.

Источник

Кластер Redshift должен масштабировать хранилище независимо от вычислений.

Узлы RA3 с управляемым хранилищем (RMS). Хранилище на базе S3; вычисления масштабируются отдельно. Требуется для AQUA, Concurrency Scaling, Federated Queries.

Источник

Запрос Redshift часто фильтрует по `created_at`; полное сканирование таблицы медленное.

Определите ключ сортировки по `created_at` (или составной ключ сортировки, включающий `created_at`). Redshift использует карты зон для пропуска блоков во время сканирования.

Источник

Частые соединения между `orders` и `order_items`; перемешивание запросов вызывает замедление.

Используйте один и тот же DISTKEY (`order_id`) для обеих таблиц. Совместно расположенные строки избегают сетевого перемешивания во время соединения.

Почему: Распределение по ключу размещает соединяемые строки на одном вычислительном узле.

Источник

Загрузка 32 gzip CSV-файлов (по ~1 ГБ каждый) в 4-узловой кластер Redshift медленная.

COPY параллельно из одного манифеста. Цель: количество файлов = кратное количеству срезов (срезы = узлы × vCPU). 4 узла ra3.xlplus = 8 срезов → 32 файла = 4 на срез.

Источник

Объединить 5 ТБ "холодных" данных Parquet в S3 с "горячими" таблицами фактов Redshift; не требуется загружать их.

Redshift Spectrum. Внешние таблицы в Glue Catalog; запросы читают S3 напрямую с помощью вычислений Redshift.

Источник

Запросы команды отчетности в пиковые нагрузки замедляют рабочие нагрузки ETL; обе работают на одном кластере.

Включите Concurrency Scaling на соответствующей очереди WLM. Redshift прозрачно направляет перегруженные запросы на масштабированные кластеры.

Источник

Запрос дашборда многократно соединяет 3 большие таблицы и агрегирует; задержка высокая.

Материализованное представление с автоматическим обновлением. Redshift поддерживает предварительно вычисленный результат; запрос читает из материализованных данных.

Источник

Периодическая аналитическая нагрузка; выделенный кластер простаивает.

Amazon Redshift Serverless. Автоматически предоставляет и масштабирует RPU для каждой рабочей нагрузки; оплата за RPU-час. Нулевые операции.

Источник

Необходимо объединить данные Redshift с "живыми" данными Aurora MySQL без ETL.

Федеративные запросы Redshift. CREATE EXTERNAL SCHEMA, указывающая на Aurora; запросы передают предикаты через "живое" соединение RDS.

Источник

Дашборд соединяет заказы + клиентов + продукты при каждом рендеринге; звездообразная схема слишком медленная.

Денормализуйте в широкую таблицу фактов или материализованное представление. Рабочие нагрузки BI предпочитают соединения во время чтения, разрешаемые во время записи.

Источник

S3 секционируется по `year/month/day/hour`; `MSCK REPAIR TABLE` занимает 30+ минут.

Включите проецирование партиций Athena (без записей партиций Glue Catalog). Определите типы ключей партиций + диапазоны в свойствах таблицы.

Почему: Athena вычисляет местоположения партиций во время запроса на основе правил проецирования — без MSCK, без регулирования API Glue.

Источник

Преобразовать результаты запроса Athena в Parquet, секционированный, за одну операцию.

CREATE TABLE AS SELECT (CTAS) с `format=PARQUET`, `partitioned_by=ARRAY['region']`, `external_location`, установленным на целевой префикс S3.

Источник

Один и тот же шаблон запроса выполняется с разными значениями параметров в течение дня.

Подготовленные операторы Athena: `PREPARE`, `EXECUTE` со значениями параметров. Избегает повторного синтаксического анализа и обеспечивает чистую параметризацию.

Источник

Показания IoT-устройств; требуются (1) все показания для устройства в заданном временном окне, (2) последнее показание для каждого устройства.

PK = `device_id`, SK = `timestamp`. GSI с PK = `device_id`, SK = инвертированная `timestamp` (или используйте Query с `ScanIndexForward=false LIMIT 1`).

Источник

Таблица сессий неограниченно растет; старые сессии могут быть удалены через 7 дней.

Включите DynamoDB TTL для атрибута `expires_at` (эпоха). DynamoDB удаляет просроченные элементы бесплатно (в течение ~48 часов).

Источник

Данные IoT-датчиков: "горячие" запросы за последние 7 дней, случайные запросы за 2 года.

Amazon Timestream. Хранилище в памяти для недавних данных (быстрые запросы); автоматическое многоуровневое хранение в магнитном хранилище для исторических данных.

Источник

Cassandra-совместимое хранилище для временных рядов с высокой скоростью записи и 90-дневным хранением.

Amazon Keyspaces с TTL для строк. Совместим с Cassandra CQL; бессерверная емкость, без управления кластером.

Источник

Стоимость хранения OpenSearch растет; старые индексы редко запрашиваются.

Политики ISM OpenSearch разделяют данные по уровням: hot → UltraWarm (на базе S3) → Cold. Уровень Cold отсоединен, но доступен для поиска по запросу.

Источник

Операции и поддержка данных

Убедитесь, что выходные данные ETL содержат ≥1000 строк и доля NULL-значений в столбцах <2% перед дальнейшим использованием.

Правила качества данных AWS Glue (DQDL): `RowCount >= 1000`, `Completeness "col" > 0.98`. Конвейер останавливается при нарушении правила.

Источник

Кастомная платформа качества данных на базе Spark в EMR; требуются статистические проверки на уровне столбцов.

Библиотека AWS Deequ на Spark. Определите ограничения (`isComplete`, `hasMin`, `isContainedIn`); Deequ запускается как задача Spark и выдает метрики.

Источник

Аналитикам необходимо обнаруживать, запрашивать доступ и понимать происхождение данных по продуктам в разных учетных записях.

Amazon DataZone. Каталог данных с бизнес-глоссарием, рабочими процессами доступа, lineage; охватывает Lake Formation, Redshift, RDS.

Источник

Lambda генерирует метрики обработки для каждой записи; стоимость CloudWatch PutMetricData высокая.

CloudWatch Embedded Metric Format (EMF). Регистрируйте JSON в схеме EMF; CloudWatch извлекает метрики из логов без затрат на PutMetricData.

Источник

Найти все задачи Glue, длительность которых превысила 1 час за последние 7 дней.

Запрос CloudWatch Logs Insights: `fields @timestamp, @message | filter @message like /JobRunDuration/ | parse @message "duration=*" as d | filter d > 3600`.

Источник

Задача Glue работает медленно; нужно узнать, не хватает ли ей ресурсов или есть ли перекос в перемешивании.

Включите метрики задач Glue + наблюдаемость. CloudWatch показывает максимальное использование DPU, утилизацию исполнителей, чтение/запись shuffle для каждого этапа.

Источник

Размеры задач Glue Spark различаются в 10 раз между запусками; избыточное выделение ресурсов для небольших входных данных.

Включите автомасштабирование Glue (Glue 3.0+). Воркеры добавляются/удаляются во время выполнения на основе параллелизма этапов.

Источник

Athena сканирует 5 ТБ для ответа на запросы, которые касаются данных за один день; стоимость слишком высока.

Секционируйте по дате и убедитесь, что в предложении WHERE используются ключи партиционирования. Проверьте с помощью `EXPLAIN`, показывающего отсечение партиций.

Источник

Запросы Athena к озеру данных JSON медленные и дорогие.

Преобразуйте в Parquet (столбчатый) или ORC. Читаются только необходимые столбцы; нативная компрессия сокращает как стоимость сканирования, так и время.

Источник

Оптимизация стоимости кластера EMR без риска потери данных.

Базовые узлы (Core nodes) по требованию (хост HDFS / shuffle). Узлы задач (Task nodes) на Spot через Instance Fleets с разнообразными типами инстансов.

Источник

Кластер Redshift работает 24/7; ценообразование по требованию дорогое.

Зарезервированные узлы Redshift (1 год или 3 года, полная/частичная/без предоплаты). Скидка до ~75% по сравнению с ценами по требованию для стабильных нагрузок.

Источник

Выберите между Athena, Redshift и EMR для 500 ГБ ежедневно / 50 запросов.

Ad-hoc, нечасто → Athena (за ТБ сканирования). Предсказуемые BI-дашборды → Redshift (RA3 + Reserved). Тяжелый кастомный Spark → EMR.

Почему: Athena взимает плату за сканированные данные; Redshift — за час работы кластера; EMR — за час работы инстанса. Сопоставьте оплату с паттерном доступа.

Источник

Задача Glue запускается несколько раз одновременно; требуется ограничить до одного запуска за раз.

Установите для задачи Glue `MaxConcurrentRuns=1`. Последующие триггеры будут ожидать; устраняет повреждение состояния при параллельных запусках.

Источник

Повторные попытки Glue ETL приводят к дублированию выходных строк в целевом S3.

Идемпотентность: запись во временный префикс за каждый запуск, затем атомарное переименование через S3 multipart `CompleteMultipartUpload` или использование MERGE Iceberg/Hudi для upserts.

Источник

Неудачный запуск ETL записал поврежденные строки в Aurora MySQL; восстановить до момента времени несколько минут назад.

Aurora Backtrack (только для MySQL-совместимых). Откатывает кластер к целевому времени без восстановления из снимка.

Источник

Конвейер перезаписал правильные объекты S3 поврежденными данными.

Версионирование бакета S3 + восстановление предыдущей версии. Объедините с MFA Delete, чтобы предотвратить случайное истечение срока действия версии.

Источник

Автоматизировать создание, хранение и копирование снимков EBS между регионами для аварийного восстановления.

Amazon Data Lifecycle Manager (DLM) с политикой для каждого тега: расписание, хранение, копирование между регионами.

Источник

Потребители MSK отстают от производителей; необходимо обнаружить и оповестить.

Метрика CloudWatch `MaxOffsetLag` для каждой группы потребителей. Тревога, когда > порога; масштабирование количества потребителей или увеличение параллелизма партиций.

Источник

Потребитель Kinesis отстает; нужно обнаружить.

Метрика CloudWatch `GetRecords.IteratorAgeMilliseconds`. Тревога > 60с обычно означает недостаток ресурсов у потребителей.

Источник

Определить самые медленные запросы Redshift за последний час для настройки.

Запрос `SVL_QLOG` / `STL_QUERY` / `SYS_QUERY_HISTORY` для записей с наибольшим прошедшим временем; используйте `SVL_QUERY_REPORT` для пошаговой детализации.

Источник

Безопасность и управление данными

Отделы продаж должны видеть только строки, относящиеся к их регионам, в общем озере данных.

Безопасность на уровне строк Lake Formation через фильтр данных: `region IN ('NA', 'EU')` для каждого субъекта IAM. Одна таблица; фильтрованное представление для каждого субъекта.

Источник

Таблица здравоохранения — аналитики не должны видеть столбцы SSN и диагнозов.

Разрешения Lake Formation на уровне столбцов: GRANT SELECT на таблицу EXCEPT (`ssn`, `diagnosis_code`).

Источник

Много команд + много таблиц; разрешения для каждой таблицы становятся неуправляемыми.

LF-теги Lake Formation. Тегируйте таблицы/столбцы; предоставляйте разрешения на основе тегов субъектам. Добавление новой таблицы требует только правильного тега.

Источник

Учетная запись A содержит озеро данных; аналитикам учетной записи B нужен доступ для чтения к определенным таблицам.

Меж-аккаунтный доступ Lake Formation через RAM. Учетная запись A предоставляет разрешения субъекту IAM/учетной записи B; B получает доступ через Athena/Redshift Spectrum.

Источник

Безопасность на уровне строк внутри Redshift (не Lake Formation).

Нативные политики RLS Redshift: `CREATE RLS POLICY` с предикатом, ссылающимся на контекст сессии (`current_user`, `session_role`). Прикрепите политику к таблице.

Источник

Соблюдение нормативов требует использования управляемого клиентом ключа с аудитом для шифрования Redshift.

Кластер Redshift зашифрован ключом KMS, управляемым клиентом. Включено ротация ключей; CloudTrail фиксирует каждую операцию расшифровки против CMK.

Источник

Зашифровать входные/выходные данные задачи Glue ETL ключом, управляемым компанией.

Конфигурация безопасности Glue с CMK для S3 + CloudWatch Logs + закладок задач. Роли Glue предоставлены `kms:Decrypt`/`Encrypt` для ключа.

Источник

Обнаружить и классифицировать PII (имена, SSN, email) в озере данных S3.

Amazon Macie. Обнаружение конфиденциальных данных на S3 на основе ML; формирует результаты с местоположением объекта и типом PII.

Источник

Проводить аудит каждой операции S3 GetObject / PutObject в бакете озера данных.

События данных CloudTrail для бакета. CloudTrail по умолчанию регистрирует только события управления; события данных должны быть включены явно.

Почему: События данных тарифицируются за каждое событие; ограничьте область действия только чувствительным бакетом для контроля затрат.

Источник

Требуется информация о том, кто/когда/IP для каждого доступа к S3; события данных CloudTrail слишком дороги.

Журналирование доступа к серверу S3. Бесплатно; журналы доставляются в отдельный бакет для логирования; меньше деталей, чем в CloudTrail, но покрывает запрашивающего + IP + путь.

Источник

Предотвратить случайное публичное открытие любого бакета в аккаунте, даже если это разрешено политикой бакета.

S3 Block Public Access на уровне аккаунта. Переопределяет любую политику на уровне бакета; применяется как защитное ограждение.

Источник

Redshift в VPC должен читать из S3 без использования публичного интернета.

Шлюзовая конечная точка S3 (S3 Gateway Endpoint) в таблице маршрутизации подсети Redshift. Трафик маршрутизируется через магистральную сеть AWS; без NAT, без IGW.

Источник

Задача Glue ETL должна получать доступ к RDS в частной подсети И вызывать Glue Data Catalog API.

Соединение Glue в VPC RDS + конечные точки интерфейса VPC для `glue.amazonaws.com` + шлюзовая конечная точка S3.

Источник

Glue ETL требуется чтение из S3, запись в Redshift, чтение из Secrets Manager.

Единая роль выполнения Glue с политиками наименьших привилегий: `s3:GetObject` для исходного префикса, `redshift-data:ExecuteStatement`, `secretsmanager:GetSecretValue` для конкретного ARN секрета.

Источник

Обнаруживать необычные паттерны доступа к данным — большая загрузка пользователем IAM без предыдущего доступа к озеру данных.

Защита GuardDuty S3. Поведенческие базовые показатели для каждого субъекта IAM; обнаружение аномальных объемов/паттернов доступа.

Источник

Соблюдение нормативов требует WORM (однократная запись, многократное чтение) хранения финансовых данных в течение 7 лет.

S3 Object Lock с режимом Compliance + период хранения 7 лет. Даже root не может удалить; соответствует SEC 17a-4 / FINRA.

Источник

Непрерывный сбор доказательств соответствия для аудитов HIPAA / SOC 2.

AWS Audit Manager с предустановленными фреймворками. Автоматически собирает доказательства из CloudTrail, Config, Security Hub; создает готовые к аудиту отчеты.

Источник