Необходимо понять, почему сложная модель "черного ящика" делает определенные прогнозы, для отладки, соответствия требованиям или доверия заинтересованных сторон.
→Используйте панель инструментов Ответственного ИИ в Машинном обучении Azure для генерации объяснений модели. Используйте SHAP для локальных объяснений (отдельных прогнозов) и глобальной важности признаков для общего поведения модели.
Почему: Значения SHAP предоставляют надежный, независимый от модели способ определения влияния каждого признака на конкретное предсказание, что крайне важно для регуляторных сценариев и отладки.
Модель, используемая для принятия решений, таких как одобрение кредита, должна быть справедливой и не дискриминировать защищенные демографические группы.
→Используйте оценку справедливости панели инструментов Ответственного ИИ для анализа метрик справедливости (например, демографическое равенство, равные шансы) по чувствительным признакам. Примените методы смягчения, такие как корректировка пороговых значений после обработки, если обнаружены расхождения.
Почему: Оценка справедливости предоставляет количественные доказательства поведения модели в разных группах. Методы смягчения помогают исправить предубеждения для обеспечения справедливых результатов.
LLM должна отвечать на вопросы на основе конкретных, частных документов компании, не выдумывая факты.
→Реализуйте паттерн Retrieval-Augmented Generation (RAG). Используйте Azure AI Search для создания векторного индекса документов. Во время запроса извлекайте релевантные фрагменты документов и передавайте их LLM в качестве контекста в запросе.
Почему: RAG основывает ответ LLM на фактической, актуальной информации, значительно уменьшая галлюцинации и позволяя использовать знания, отсутствующие в исходных обучающих данных.
LLM должна постоянно следовать определенным указаниям, тону и форматам вывода (например, генерировать JSON).
→Используйте подробный инжиниринг системных запросов. Предоставьте четкую персону, явные правила и ограничения, а также примеры желаемых пар входных/выходных данных для нескольких выборок (few-shot examples).
Почему: Хорошо составленный системный запрос является наиболее прямым и эффективным способом управления поведением LLM без затрат и сложности тонкой настройки.
Необходимо измерить качество приложения LLM на основе RAG.
→Используйте метрики оценки, специфичные для RAG, такие как Groundedness (подтвержден ли ответ контекстом?) и Relevance (отвечает ли ответ на вопрос пользователя?).
Почему: Стандартные метрики NLP, такие как ROUGE, недостаточны. Groundedness и Relevance непосредственно измеряют основные проблемы RAG: предотвращение галлюцинаций и предоставление полезных ответов.
Приложение LLM слишком медленное или дорогое для использования в производственной среде.
→Внедрите маршрутизатор для использования меньших, более дешевых моделей (например, GPT-3.5-Turbo) для простых задач. Включите кэширование ответов для повторяющихся запросов. Оптимизируйте длину запроса.
Почему: Использование модели подходящего размера для задачи является наиболее эффективной мерой экономии затрат. Кэширование исключает избыточные вызовы API, напрямую уменьшая затраты и задержку.
Приложение LLM обрабатывает конфиденциальные данные, которые не должны покидать корпоративную сеть или использоваться для обучения модели.
→Разверните службу Azure OpenAI с приватной конечной точкой. Настройте ресурс так, чтобы он не регистрировал данные запросов/завершений.
Почему: Приватные конечные точки обеспечивают сетевую изоляцию. Опция без логирования предоставляет дополнительный уровень конфиденциальности данных, соответствуя строгим требованиям соответствия.
Поток запросов (prompt flow), разработанный в Azure AI Studio, необходимо развернуть в качестве высокодоступной, масштабируемой производственной конечной точки.
→Разверните поток запросов в качестве управляемой онлайн-конечной точки Машинного обучения Azure.
Почему: Это обеспечивает беспрепятственный путь от разработки к производству, используя ту же надежную инфраструктуру (автомасштабирование, балансировка нагрузки, мониторинг) что и для традиционных моделей ML.
Пользовательское приложение генеративного ИИ должно быть защищено от генерации или обработки вредоносного, оскорбительного или небезопасного контента.
→Используйте как встроенные фильтры контента Azure OpenAI, так и службу Azure AI Content Safety для глубокой модерации как запросов, так и завершений.
Почему: Многоуровневая безопасность критически важна. Встроенные фильтры обеспечивают базовый уровень, в то время как специализированная служба Content Safety предлагает более детальный контроль и мультимодальные возможности.
Чат-бот с разговорным ИИ должен поддерживать контекст на протяжении нескольких обращений пользователя.
→LLM являются без сохранения состояния. Приложение должно управлять историей разговора (например, в сессии или базе данных) и включать соответствующие части истории в каждый новый запрос к LLM.
Почему: Явное предоставление контекста в каждом вызове API — единственный способ для без сохранения состояния LLM "запомнить" разговор.
Необходимо систематически тестировать различные запросы, чтобы найти тот, который обеспечивает наилучшую производительность LLM.
→Используйте Variants в потоке запросов (prompt flow). Определите несколько версий запросов для узла и запустите массовое тестирование на оценочном наборе данных для сравнения метрик производительности.
Почему: Variants обеспечивают структурированный, основанный на данных подход к инжинирингу запросов, переходя от ручного метода проб и ошибок к систематической оптимизации.
Необходимо отслеживать производственное приложение LLM как на предмет операционного состояния, так и на предмет качества ответов.
→Объедините Application Insights для операционной телеметрии (задержка, частота ошибок, использование токенов) с периодическими заданиями пакетной оценки, используя поток оценки для анализа качества ответов (groundedness, relevance).
Почему: Мониторинг LLM требует отслеживания как производительности системы, так и качества сгенерированного контента. Эта комбинация обеспечивает целостное представление о состоянии приложения.