Guia — AI-103 Microsoft Azure AI Apps and Agents Developer Associate

Última revisão: junho de 2026

Uma referência rápida dos padrões arquiteturais que o exame AI-103 avalia. Leia de cima a baixo ou pule para uma seção.

Planejar e gerenciar uma solução de Azure AI

Um recurso de bate-papo funciona em alto volume com interações curtas e simples e um orçamento apertado de latência e custo.

Implante um modelo de linguagem pequeno (SLM) como o Phi do catálogo de modelos do Foundry em vez de um LLM de ponta.

Por quê: SLMs reduzem custos e latência para tarefas restritas; reserve LLMs grandes para raciocínio complexo. Combine o tamanho do modelo com a tarefa, não com a marca.

Referência

Um único agent deve raciocinar sobre imagens e texto enviados pelo usuário em uma única solicitação.

Escolha um modelo multimodal (por exemplo, família GPT-4o) no catálogo do Foundry em vez de encadear um modelo de visão em um LLM somente de texto.

Por quê: Modelos multimodais nativos aceitam imagem e texto em um único prompt; um modelo somente de texto força uma transferência de legenda com perda que descarta detalhes visuais.

As respostas devem ser fundamentadas em uma base de conhecimento corporativa privada, não no pré-treinamento do modelo.

Crie uma camada de recuperação: indexe o corpus no Azure AI Search com embeddings de vetor e fundamente o modelo via RAG sobre esse índice.

Por quê: O grounding injeta contexto recuperado e citável na inferência; o ajuste fino incorpora o conhecimento estaticamente e não pode citar ou atualizar de forma barata.

Referência

Um agent precisa chamar APIs REST internas e também recuperar informações de um armazenamento de documentos indexado.

Registre as APIs como ferramentas de agent (função/OpenAPI) e anexe o índice do AI Search como uma fonte de conhecimento no agent do Foundry.

Por quê: As ferramentas dão ao agent capacidade de ação; as fontes de conhecimento dão recuperação fundamentada. São superfícies de integração distintas, não o mesmo conector.

Várias equipes precisam de configurações de agent, conexões e implantações isoladas sob governança compartilhada.

Use um hub do Foundry com projetos do Foundry por equipe; cada projeto delimita suas próprias conexões, implantações e acesso.

Por quê: O hub centraliza redes, políticas e recursos compartilhados; o projeto é a unidade de espaço de trabalho para um aplicativo ou equipe. Não compartilhe um projeto entre equipes.

Um aplicativo de produção precisa de residência de dados previsível e taxa de transferência reservada para uma implantação de modelo.

Use uma implantação Standard (regional) ou de Taxa de Transferência Provisionada (PTU) em vez de uma implantação Global para cargas de trabalho sensíveis à residência e de alta taxa de transferência.

Por quê: As implantações Globais roteiam para qualquer região para capacidade; o Standard fixa a região, e o PTU reserva capacidade para latência estável. Escolha com base nas necessidades de residência e SLA.

Referência

Definições de prompt e agent devem passar do desenvolvimento para a produção com revisão e reversão.

Armazene as definições de fluxo de prompt/agent como código em um repositório e promova-as por meio de ambientes com pipelines do Azure DevOps ou GitHub Actions.

Por quê: Trate prompts e configurações de agent como artefatos versionados; edições manuais no portal em produção não têm trilha de auditoria ou caminho de reversão.

Um pico de tráfego dispara erros 429 contra uma implantação de modelo.

Aumente a cota de TPM/RPM da implantação quando disponível, adicione nova tentativa no lado do cliente com backoff exponencial e considere uma implantação PTU para capacidade garantida.

Por quê: A cota é o limite de tokens por minuto; o backoff suaviza a limitação transitória. Criar recursos duplicados sem planejamento de cota apenas move o gargalo.

Referência

Os gastos são imprevisíveis e dominados por prompts RAG longos.

Limite os tokens de saída máximos, corte o contexto recuperado para top-k, armazene em cache o contexto do sistema reutilizável e rastreie o uso de tokens por implantação no Azure Monitor.

Por quê: O custo escala com os tokens de entrada mais saída; reduzir o contexto e as saídas é a alavanca direta. Mudar de região ou SKU raramente altera o preço por token de forma significativa.

Ao longo das semanas, a qualidade das respostas e a fidelidade do grounding parecem degradar na produção.

Execute avaliações online contínuas no Foundry para groundedness, relevância e coerência no tráfego ao vivo amostrado e alerte sobre quedas de pontuação.

Por quê: Avaliadores agendados detectam desvios que você não pode ver nas métricas de latência bruta; painéis de CPU/latência sozinhos nunca revelam uma regressão de grounding.

Referência

As respostas RAG ficam desatualizadas porque novos documentos não estão sendo recuperados.

Monitore o histórico de execução do indexador do AI Search e as contagens de documentos; agende a indexação incremental e alerte sobre execuções de indexador com falha.

Por quê: A qualidade da recuperação falha silenciosamente quando o indexador falha ou atrasa; as métricas do lado do modelo parecem boas porque a falha está no pipeline de dados.

Um aplicativo deve chamar uma implantação de modelo do Foundry sem segredos na configuração.

Habilite uma managed identity no aplicativo e conceda a ela a função "Cognitive Services OpenAI User"; autentique com tokens do Entra ID, não com chaves de API.

Por quê: A autenticação Entra sem chave remove segredos que podem vazar e centraliza o RBAC; armazenar chaves de API, mesmo no Key Vault, ainda deixa uma chave para girar e proteger.

Referência

O tráfego do Foundry nunca deve atravessar a internet pública.

Coloque o recurso do Foundry e as dependências atrás de private endpoints, desabilite o acesso à rede pública e resolva via private DNS zones.

Por quê: Os private endpoints fixam o tráfego na VNet; as listas de permissão de IP do firewall ainda roteiam por endpoints públicos e são uma isolação mais fraca.

Respostas geradas ocasionalmente incluem conteúdo de ódio ou violento.

Aplique um filtro de Azure AI Content Safety na implantação com limiares de gravidade apropriados para categorias de ódio, sexual, violência e automutilação.

Por quê: Os filtros de conteúdo rastreiam prompts e conclusões no lado do servidor; confiar apenas em uma instrução de prompt de sistema é facilmente contornado por jailbreaks.

Referência

Um agent autônomo pode executar ações irreversíveis, como emitir reembolsos.

Configure um gate de aprovação com intervenção humana para ferramentas de alto impacto e restrinja o agent a um conjunto de ações permitidas.

Por quê: Modos de aprovação e restrições de acesso a ferramentas limitam a autonomia; um agent autônomo irrestrito não tem freio em uma chamada de ferramenta destrutiva.

Auditores precisam ver quais fontes e chamadas de ferramenta produziram uma determinada resposta.

Habilite o rastreamento no Foundry (OpenTelemetry) para capturar prompts, citações recuperadas, invocações de ferramentas e saídas por solicitação.

Por quê: Os rastreamentos de ponta a ponta fornecem proveniência e reprodutibilidade; métricas agregadas de token sozinhas não podem reconstruir a cadeia de raciocínio de uma única resposta.

Referência

Implementar soluções de IA generativa e agentivas

Um serviço de backend deve chamar modelos e agents definidos em um projeto do Foundry.

Use o SDK do Azure AI Foundry (AIProjectClient) com a string de conexão do projeto e uma DefaultAzureCredential para obter clientes de modelo e agent.

Por quê: O cliente de projeto resolve conexões e implantações centralmente; codificar endpoints e chaves por modelo ignora a governança do projeto.

Referência

Crie um aplicativo de perguntas e respostas baseado em documentos de política.

Incorpore e indexe os documentos, recupere os top-k trechos por consulta e passe-os como contexto para a conclusão do bate-papo com uma instrução de "citar suas fontes".

Por quê: O RAG mantém o conhecimento atual e citável sem retreinamento; passar o corpus completo para o prompt excede a janela de contexto e o custo.

O modelo deve consultar o status de pedidos ao vivo durante uma conversa.

Defina uma ferramenta com um esquema JSON, deixe o modelo emitir uma chamada de ferramenta, execute-a no lado do servidor e retorne o resultado para o modelo resumir.

Por quê: A chamada de função/ferramenta permite que o modelo invoque sistemas reais deterministicamente; pedir que "adivinhe" o status produz fabricações.

Referência

Uma tarefa precisa de várias chamadas de ferramenta dependentes antes de uma resposta final.

Execute um loop de uso de ferramenta: alimente cada resultado da ferramenta de volta ao modelo e itere até que ele retorne uma mensagem final, com um limite máximo de iterações.

Por quê: Loops de ferramentas iterativos suportam raciocínio multi-etapa; uma única ida e volta não consegue encadear pesquisas dependentes, e um loop sem limite pode disparar.

Antes de enviar, quantifique com que frequência um aplicativo RAG alucina ou se desvia do tópico.

Execute avaliadores do Foundry para groundedness, relevância e coerência em um conjunto de testes rotulado e libere com base em pontuações de limite.

Por quê: Avaliadores integrados fornecem sinais de qualidade e segurança mensuráveis; a análise visual de algumas amostras não detecta fabricações sistemáticas.

Referência

Defina um agent de suporte com uma persona, objetivos e limites claros.

Defina as instruções do sistema do agent (função, objetivos, regras de recusa) e anexe apenas as ferramentas de que ele precisa para seu escopo.

Por quê: Instruções rigorosas mais acesso mínimo a ferramentas mantêm o agent na tarefa; instruções amplas e todas as ferramentas convidam à expansão do escopo e ações inseguras.

Um agent deve lembrar o contexto entre as interações em uma sessão.

Use os threads do Serviço de Agent do Foundry, que persistem o histórico de mensagens por conversa para que cada execução veja as interações anteriores.

Por quê: Os threads fornecem memória de conversação gerenciada; reenviar a transcrição inteira manualmente a cada chamada é frágil e fácil de truncar incorretamente.

Referência

Um agent precisa de grounding web e execução de código sem infraestrutura personalizada.

Anexe ferramentas de agent do Foundry integradas, como Grounding com Bing Search e o Code Interpreter, em vez de criar integrações manualmente.

Por quê: As ferramentas gerenciadas são governadas e suportadas imediatamente; reimplementações personalizadas adicionam manutenção e ignoram os controles de segurança da plataforma.

Um agent primário deve delegar perguntas de faturamento a um agent de faturamento especializado.

Use agents conectados: exponha o agent de faturamento como uma ferramenta que o agent principal pode chamar, para que ele encaminhe subtarefas para especialistas.

Por quê: Agents conectados permitem a delegação hierárquica; agrupar todos os domínios em um mega-agent infla as instruções e degrada a precisão.

Referência

Um fluxo de trabalho precisa de um planejador, um pesquisador e um escritor colaborando com estado compartilhado.

Orquestre-os com uma estrutura multi-agent (Semantic Kernel / AutoGen no Foundry) usando um padrão de orquestração definido e contexto compartilhado.

Por quê: As estruturas gerenciam a alternância de turnos, o estado e a terminação; a passagem de string ad-hoc entre agents não tem coordenação ou condição de parada.

Um agent funciona sem supervisão durante a noite e não deve realizar ações arriscadas sozinho.

Delimite-o com ferramentas permitidas, orçamentos por ação, filtros de conteúdo e um ponto de verificação que escala etapas de alto impacto para aprovação.

Por quê: Salvaguardas em camadas mantêm a autonomia segura; um loop autônomo com acesso total à ferramenta e sem porta de aprovação pode causar danos irreversíveis.

Um agent falha intermitentemente no meio da tarefa e você deve encontrar a etapa com falha.

Inspecione as etapas rastreadas e as entradas/saídas da chamada de ferramenta da execução no Foundry para localizar a ferramenta com falha ou o argumento malformado.

Por quê: Rastreamentos em nível de etapa indicam onde uma execução falhou; uma única mensagem de erro final oculta qual chamada de ferramenta ou etapa de raciocínio realmente falhou.

As saídas são inconsistentes e ignoram as instruções de formatação.

Use uma mensagem de sistema clara, exemplos de poucas interações e restrições de saída explícitas; para um formato estrito, habilite saídas estruturadas / JSON schema.

Por quê: Prompts estruturados e saídas com esquema imposto tornam os resultados confiáveis; aumentar a temperatura ou tentar novamente cegamente não corrige o seguimento de instruções.

Referência

Uma tarefa de cópia criativa parece muito repetitiva; uma tarefa de extração de dados é muito aleatória.

Aumente a temperatura/top-p para a tarefa criativa e reduza-os para 0 para a extração para torná-la determinística.

Por quê: Os parâmetros de amostragem trocam diversidade por determinismo; mudar de modelo é um exagero quando a configuração do parâmetro é a causa real.

Um agent de raciocínio comete erros lógicos evitáveis em tarefas difíceis.

Adicione uma etapa de reflexão/autocrítica onde o agent revisa e revisa seu rascunho, ou use um modelo de raciocínio para a etapa.

Por quê: A cadeia de pensamento e a autocrítica melhoram a precisão de tarefas difíceis; uma única passagem direta não tem chance de pegar seu próprio erro.

As operações precisam de gastos de token, latência e sinais de segurança por solicitação em produção.

Emita rastreamentos e métricas OpenTelemetry do aplicativo para o Azure Monitor / Application Insights, capturando tokens, latência e sinalizadores de segurança de conteúdo.

Por quê: A observabilidade unificada une custo, desempenho e segurança; raspar logs manualmente não consegue correlacionar uma interação lenta com seu uso de token.

Referência

Um aplicativo mistura classificação barata com raciocínio complexo ocasional.

Orquestre várias implantações: encaminhe interações simples para um SLM e escale interações difíceis para um LLM de ponta atrás de uma camada de aplicativo.

Por quê: O roteamento de modelos otimiza custo e qualidade por interação; usar um modelo premium para tudo gasta demais na maioria fácil.

Implementar soluções de visão computacional

Um aplicativo de marketing deve gerar imagens originais a partir de prompts de texto.

Implante um modelo de geração de imagem (por exemplo, DALL-E / GPT-image no catálogo do Foundry) e chame-o com o prompt de texto e os parâmetros de tamanho.

Por quê: Modelos de imagem generativos sintetizam novos visuais; a API de Análise de Imagem (visão) apenas descreve imagens existentes, não pode criá-las.

Referência

Substitua apenas o fundo de uma foto de produto existente, mantendo o produto intacto.

Use o endpoint de edição de imagem (inpainting) com a imagem de origem mais uma máscara que marca apenas a região editável.

Por quê: Uma máscara delimita as edições à área pintada; uma chamada simples de texto para imagem regenera o quadro inteiro e perde o produto original.

Produza clipes de vídeo gerados curtos a partir de uma descrição de texto.

Use um modelo de texto para vídeo como Sora no catálogo do Foundry com parâmetros de prompt, duração e resolução.

Por quê: A geração de vídeo é uma família de modelos distinta; modelos de imagem produzem quadros únicos e não podem produzir movimento temporal.

Usuários fazem perguntas de formato livre sobre uma imagem de gráfico enviada.

Envie a imagem mais a pergunta para um LLM multimodal (GPT-4o) para resposta a perguntas visuais e uma resposta em linguagem natural.

Por quê: O chat multimodal lida com QA visual aberto; a marcação de imagem de taxonomia fixa retorna rótulos, não respostas a perguntas arbitrárias.

Gerar automaticamente texto alternativo descritivo para milhares de imagens para acessibilidade.

Use o recurso de legenda / legendas densas da Análise de Imagem para produzir descrições legíveis por humanos em escala.

Por quê: A legendagem produz texto alt conciso diretamente; a detecção de objetos retorna caixas delimitadoras que ainda precisam ser transformadas em prosa.

Referência

Extrair campos estruturados e insights em nível de segmento de vídeos longos gravados.

Use o Azure AI Content Understanding com um analisador de vídeo para obter saída estruturada e definida por esquema ao longo da linha do tempo.

Por quê: O Content Understanding produz saída estruturada fundamentada entre modalidades; chamadas de imagem quadro a quadro não fornecem estrutura sensível ao tempo.

Referência

Um agent multimodal lê imagens de usuário que podem conter texto de instrução oculto.

Habilite escudos de prompt / detecção de injeção indireta e trate o texto dentro das imagens como dados não confiáveis, não como instruções.

Por quê: O texto de imagem incorporado é um vetor clássico de prompt injection indireto; passar o texto OCR'd diretamente para o prompt do sistema permite que os invasores sequestrem o agent.

Referência

Implementar soluções de análise de texto

Extrair nomes, datas e valores de e-mails para um registro JSON tipado.

Dê um prompt a um LLM com um esquema JSON de destino e habilite saídas estruturadas para que cada campo seja retornado em um formato fixo.

Por quê: A extração de LLM com restrições de esquema lida com formatos abertos e garante JSON analisável; regex frágil quebra na variedade de linguagem natural.

Produzir um resumo conciso e reescrito de longas transcrições de suporte.

Use um LLM para sumarização abstrativa com uma instrução de comprimento e foco, ou a habilidade de sumarização do serviço Language.

Por quê: Resumos abstrativos parafraseiam a essência; a seleção extrativa de frases apenas copia frases e pode perder o ponto geral.

Referência

Classificar mensagens de clientes por sentimento e sinalizar tom agressivo.

Use um LLM (ou a API de sentimento do Language) para rotular a polaridade e detectar o tom, retornando uma categoria e confiança.

Por quê: A análise de sentimento/tom é uma tarefa de classificação com rótulos definidos; a geração de texto livre sem um esquema de rótulos é difícil de rotear downstream.

Traduzir grandes volumes de strings de interface do usuário de forma precisa e barata em 30 idiomas.

Use o Azure AI Translator para tradução em massa e determinística; reserve um LLM para passagens mais sutis e com muito contexto.

Por quê: O Translator é construído para essa finalidade, mais barato e consistente em escala; um LLM por string custa mais e pode variar no tom entre as execuções.

Referência

Um agent de voz deve transcrever áudio do chamador em tempo real.

Use o serviço de fala em tempo real (ou transcrição rápida) do Speech para alimentar o texto no pipeline do agent.

Por quê: O STT de streaming fornece transcrições parciais de baixa latência para conversas ao vivo; a transcrição em lote é para arquivos offline, não para interações ao vivo.

Referência

A transcrição entende mal nomes de produtos e jargão médico.

Treine um modelo de Custom Speech com áudio de domínio e listas de frases para aumentar o reconhecimento de vocabulário especializado.

Por quê: O Custom Speech adapta o modelo acústico/linguístico aos seus termos; o modelo base não tem exposição ao seu jargão privado.

Referência

O agent deve responder com áudio falado de som natural.

Use Text to Speech neural com uma voz apropriada e SSML para controlar prosódia, pausas e pronúncia.

Por quê: O TTS neural mais SSML produz fala realista e controlável; texto simples sem SSML resulta em frases planas em números e nomes.

Referência

Implementar soluções de extração de informações

A recuperação somente por vetor perde correspondências exatas de palavras-chave e identificadores de código.

Use pesquisa híbrida no Azure AI Search (vetor mais palavra-chave) com ranqueamento semântico para reordenar os resultados mesclados.

Por quê: Híbrido mais reranking semântico supera qualquer sinal sozinho; a pesquisa puramente vetorial pode perder termos literais, a puramente por palavra-chave perde paráfrases.

Referência

O corpus inclui PDFs digitalizados cujo texto não é selecionável.

Adicione uma habilidade cognitiva de OCR (Document Intelligence / Vision) ao conjunto de habilidades de indexação para que o texto digitalizado seja extraído antes da divisão em chunks e do embedding.

Por quê: O enriquecimento com OCR extrai texto de imagens para recuperação; a indexação do PDF digitalizado bruto não produz nada pesquisável.

Referência

Durante a ingestão, você precisa de OCR, extração de frases-chave e tradução aplicados por documento.

Defina um skillset do AI Search encadeando as habilidades cognitivas necessárias, projetando as saídas em campos de índice que o indexador preenche.

Por quê: Um skillset orquestra declarativamente o enriquecimento no momento da indexação; fazê-lo no código do aplicativo por consulta repete o trabalho e impede a reutilização.

Você quer que a divisão em chunks e o embedding sejam tratados dentro do pipeline de índice, não no código do aplicativo.

Use a vetorização integrada do AI Search para dividir documentos e chamar um modelo de embedding durante a indexação e no momento da consulta.

Por quê: A vetorização integrada mantém a divisão em chunks/embedding consistente entre a ingestão e a consulta; o embedding personalizado no lado do cliente corre o risco de incompatibilidade de modelo.

Referência

Extrair campos estruturados de faturas com layouts variados.

Use um modelo de fatura pré-construído do Document Intelligence, ou treine um modelo personalizado, para retornar campos tipados com confiança e regiões delimitadoras.

Por quê: O Document Intelligence entende o layout e retorna campos tipados; um despejo somente OCR fornece texto bruto sem semântica de campo.

Referência

Você precisa de uma representação Markdown limpa e fundamentada de documentos mistos para RAG.

Use analisadores do Content Understanding para produzir saída estruturada / Markdown que preserva títulos, tabelas e grounding de campos.

Por quê: O Markdown fundamentado mantém a estrutura e as citações para recuperação; o texto simples achatado perde tabelas e o contexto de seção que o modelo precisa.

Referência

Um agent do Foundry deve recuperar informações do seu índice de pesquisa enriquecido em tempo de execução.

Adicione o índice do AI Search como uma fonte de conhecimento / ferramenta no agent para que cada execução fundamente as respostas em resultados recuperados e citados.

Por quê: Conectar o índice como uma ferramenta de agent oferece recuperação fundamentada ao vivo; colar trechos estáticos nas instruções não consegue se manter atualizado com o corpus.