Um chatbot Azure OpenAI precisa fornecer respostas consistentes, focadas e não criativas para um cenário de atendimento ao cliente.
→Defina o parâmetro `temperature` para um valor baixo, como 0.1 ou 0.2. Evite defini-lo para exatamente 0 para a maioria dos modelos.
Por quê: A temperature controla a aleatoriedade da saída. Diminuí-la torna o modelo mais determinístico e propenso a escolher os tokens de maior probabilidade.
Numa solução RAG, garanta que o modelo generativo sintetize respostas apenas a partir de documentos que o utilizador específico tem permissão para aceder.
→Implemente o corte de segurança na fase de recuperação. No Azure AI Search, aplique filtros de segurança à consulta de pesquisa com base na identidade AAD e nas associações de grupo do utilizador.
Por quê: O controlo de acesso deve ser imposto antes que o LLM veja os dados. Filtrar na camada de pesquisa (recuperação) é a única forma segura de implementar isso.
Extrair consistentemente dados estruturados de texto não estruturado para um objeto JSON válido usando o Azure OpenAI.
→Utilize um prompt que inclua: 1) Uma função clara. 2) Instrução explícita para retornar APENAS JSON. 3) O esquema JSON desejado com nomes e tipos de campos. 4) Exemplos few-shot, se possível.
Por quê: Prompts altamente estruturados e explícitos aumentam significativamente a fiabilidade de obter saída estruturada e bem formada de LLMs.
Uma aplicação de missão crítica exige throughput garantido e consistente do Azure OpenAI, sem throttling durante picos de carga.
→Adquira e implante o modelo usando Provisioned Throughput Units (PTU).
Por quê: PTUs fornecem capacidade de processamento de modelo dedicada e reservada, ao contrário das implantações padrão pay-as-you-go, que operam em um modelo de capacidade partilhada e estão sujeitas a throttling.
Referência↗
Manter o contexto numa conversa de chatbot de longa duração sem exceder o limite de tokens do modelo.
→Implementar uma estratégia de sumarização de conversas. Periodicamente, use uma chamada LLM separada para resumir partes mais antigas da conversa e inclua este resumo, mais as últimas interações, no prompt.
Por quê: Este padrão "sumarizar e deslizar" preserva o contexto a longo prazo de forma muito mais eficaz e económica do que uma simples truncagem ou o envio de todo o histórico (e eventualmente demasiado longo).
Permitir que um modelo Azure OpenAI chame uma API externa para obter informações meteorológicas atuais.
→Defina a API como uma ferramenta para o modelo usando um formato JSON Schema preciso. Inclua uma `description` de função clara e descrições `parameter` detalhadas para que o modelo saiba quando e como usá-la.
Por quê: O modelo depende inteiramente do esquema e das descrições para tomar uma decisão informada sobre a chamada de uma função. Uma função bem descrita é crítica para a fiabilidade.
Utilizar o Azure OpenAI para resumir um documento que é muito mais longo do que a janela de contexto do modelo.
→Implementar uma estratégia de "map-reduce" ou "refinamento". Divida o documento em blocos, gere um resumo para cada bloco (map), e depois gere um resumo final a partir da coleção de resumos dos blocos (reduce).
Por quê: Este é o padrão standard para aplicar modelos de contexto fixo a entradas arbitrariamente longas, garantindo que todo o conteúdo do documento é considerado.
Melhorar a responsividade percebida de uma aplicação de chat exibindo a resposta da IA à medida que está a ser gerada.
→Ao chamar a Chat Completions API, defina o parâmetro `stream` como `true`. Processe os eventos enviados pelo servidor à medida que chegam para construir a resposta token a token.
Por quê: O streaming proporciona uma experiência de utilizador muito melhor para aplicações em tempo real do que esperar que a resposta completa seja gerada, o que pode levar vários segundos.
Um agente de IA deve decidir dinamicamente qual das várias ferramentas (por exemplo, consulta de base de dados, pesquisa web, remetente de e-mail) usar para satisfazer um pedido do utilizador.
→Utilize um framework como Semantic Kernel ou Azure AI Agent Service. Defina cada capacidade como uma ferramenta/plugin distinto e deixe o planner ou o loop ReAct do agente orquestrar as chamadas de ferramentas.
Por quê: Os frameworks agentic fornecem a camada de orquestração (planner/loop de raciocínio) que permite a um LLM ir além de simples perguntas e respostas para se tornar um ator autónomo que utiliza ferramentas.
Impedir que um agente de IA autónomo execute ações de alto risco (por exemplo, apagar dados, gastar dinheiro) sem supervisão.
→Implementar um padrão human-in-the-loop. Quando o agente planeia uma ação de alto risco, o sistema deve pausar e exigir confirmação explícita de um operador humano antes de executar.
Por quê: Este é um padrão crítico de IA responsável para sistemas agentic, equilibrando autonomia com segurança ao controlar ações irreversíveis ou de alto impacto.