Um serviço de backend deve chamar modelos e agents definidos em um projeto do Foundry.
→Use o SDK do Azure AI Foundry (AIProjectClient) com a string de conexão do projeto e uma DefaultAzureCredential para obter clientes de modelo e agent.
Por quê: O cliente de projeto resolve conexões e implantações centralmente; codificar endpoints e chaves por modelo ignora a governança do projeto.
Referência↗
Crie um aplicativo de perguntas e respostas baseado em documentos de política.
→Incorpore e indexe os documentos, recupere os top-k trechos por consulta e passe-os como contexto para a conclusão do bate-papo com uma instrução de "citar suas fontes".
Por quê: O RAG mantém o conhecimento atual e citável sem retreinamento; passar o corpus completo para o prompt excede a janela de contexto e o custo.
O modelo deve consultar o status de pedidos ao vivo durante uma conversa.
→Defina uma ferramenta com um esquema JSON, deixe o modelo emitir uma chamada de ferramenta, execute-a no lado do servidor e retorne o resultado para o modelo resumir.
Por quê: A chamada de função/ferramenta permite que o modelo invoque sistemas reais deterministicamente; pedir que "adivinhe" o status produz fabricações.
Referência↗
Uma tarefa precisa de várias chamadas de ferramenta dependentes antes de uma resposta final.
→Execute um loop de uso de ferramenta: alimente cada resultado da ferramenta de volta ao modelo e itere até que ele retorne uma mensagem final, com um limite máximo de iterações.
Por quê: Loops de ferramentas iterativos suportam raciocínio multi-etapa; uma única ida e volta não consegue encadear pesquisas dependentes, e um loop sem limite pode disparar.
Antes de enviar, quantifique com que frequência um aplicativo RAG alucina ou se desvia do tópico.
→Execute avaliadores do Foundry para groundedness, relevância e coerência em um conjunto de testes rotulado e libere com base em pontuações de limite.
Por quê: Avaliadores integrados fornecem sinais de qualidade e segurança mensuráveis; a análise visual de algumas amostras não detecta fabricações sistemáticas.
Referência↗
Defina um agent de suporte com uma persona, objetivos e limites claros.
→Defina as instruções do sistema do agent (função, objetivos, regras de recusa) e anexe apenas as ferramentas de que ele precisa para seu escopo.
Por quê: Instruções rigorosas mais acesso mínimo a ferramentas mantêm o agent na tarefa; instruções amplas e todas as ferramentas convidam à expansão do escopo e ações inseguras.
Um agent deve lembrar o contexto entre as interações em uma sessão.
→Use os threads do Serviço de Agent do Foundry, que persistem o histórico de mensagens por conversa para que cada execução veja as interações anteriores.
Por quê: Os threads fornecem memória de conversação gerenciada; reenviar a transcrição inteira manualmente a cada chamada é frágil e fácil de truncar incorretamente.
Referência↗
Um agent precisa de grounding web e execução de código sem infraestrutura personalizada.
→Anexe ferramentas de agent do Foundry integradas, como Grounding com Bing Search e o Code Interpreter, em vez de criar integrações manualmente.
Por quê: As ferramentas gerenciadas são governadas e suportadas imediatamente; reimplementações personalizadas adicionam manutenção e ignoram os controles de segurança da plataforma.
Um agent primário deve delegar perguntas de faturamento a um agent de faturamento especializado.
→Use agents conectados: exponha o agent de faturamento como uma ferramenta que o agent principal pode chamar, para que ele encaminhe subtarefas para especialistas.
Por quê: Agents conectados permitem a delegação hierárquica; agrupar todos os domínios em um mega-agent infla as instruções e degrada a precisão.
Referência↗
Um fluxo de trabalho precisa de um planejador, um pesquisador e um escritor colaborando com estado compartilhado.
→Orquestre-os com uma estrutura multi-agent (Semantic Kernel / AutoGen no Foundry) usando um padrão de orquestração definido e contexto compartilhado.
Por quê: As estruturas gerenciam a alternância de turnos, o estado e a terminação; a passagem de string ad-hoc entre agents não tem coordenação ou condição de parada.
Um agent funciona sem supervisão durante a noite e não deve realizar ações arriscadas sozinho.
→Delimite-o com ferramentas permitidas, orçamentos por ação, filtros de conteúdo e um ponto de verificação que escala etapas de alto impacto para aprovação.
Por quê: Salvaguardas em camadas mantêm a autonomia segura; um loop autônomo com acesso total à ferramenta e sem porta de aprovação pode causar danos irreversíveis.
Um agent falha intermitentemente no meio da tarefa e você deve encontrar a etapa com falha.
→Inspecione as etapas rastreadas e as entradas/saídas da chamada de ferramenta da execução no Foundry para localizar a ferramenta com falha ou o argumento malformado.
Por quê: Rastreamentos em nível de etapa indicam onde uma execução falhou; uma única mensagem de erro final oculta qual chamada de ferramenta ou etapa de raciocínio realmente falhou.
As saídas são inconsistentes e ignoram as instruções de formatação.
→Use uma mensagem de sistema clara, exemplos de poucas interações e restrições de saída explícitas; para um formato estrito, habilite saídas estruturadas / JSON schema.
Por quê: Prompts estruturados e saídas com esquema imposto tornam os resultados confiáveis; aumentar a temperatura ou tentar novamente cegamente não corrige o seguimento de instruções.
Referência↗
Uma tarefa de cópia criativa parece muito repetitiva; uma tarefa de extração de dados é muito aleatória.
→Aumente a temperatura/top-p para a tarefa criativa e reduza-os para 0 para a extração para torná-la determinística.
Por quê: Os parâmetros de amostragem trocam diversidade por determinismo; mudar de modelo é um exagero quando a configuração do parâmetro é a causa real.
Um agent de raciocínio comete erros lógicos evitáveis em tarefas difíceis.
→Adicione uma etapa de reflexão/autocrítica onde o agent revisa e revisa seu rascunho, ou use um modelo de raciocínio para a etapa.
Por quê: A cadeia de pensamento e a autocrítica melhoram a precisão de tarefas difíceis; uma única passagem direta não tem chance de pegar seu próprio erro.
As operações precisam de gastos de token, latência e sinais de segurança por solicitação em produção.
→Emita rastreamentos e métricas OpenTelemetry do aplicativo para o Azure Monitor / Application Insights, capturando tokens, latência e sinalizadores de segurança de conteúdo.
Por quê: A observabilidade unificada une custo, desempenho e segurança; raspar logs manualmente não consegue correlacionar uma interação lenta com seu uso de token.
Referência↗
Um aplicativo mistura classificação barata com raciocínio complexo ocasional.
→Orquestre várias implantações: encaminhe interações simples para um SLM e escale interações difíceis para um LLM de ponta atrás de uma camada de aplicativo.
Por quê: O roteamento de modelos otimiza custo e qualidade por interação; usar um modelo premium para tudo gasta demais na maioria fácil.