Découvrir, tester et déployer une variété de modèles de fondation sur Google Cloud.
→Utiliser Vertex AI Model Garden comme catalogue central pour les modèles propriétaires de Google (Gemini), les modèles open source (Llama, Mistral) et les modèles partenaires.
Pourquoi: Model Garden est le point d'entrée unifié pour accéder à un ensemble sélectionné de modèles de fondation, simplifiant la découverte et le déploiement dans un environnement de niveau entreprise.
Référence↗
Un assistant IA doit répondre à des questions sur des informations qui changent fréquemment, comme l'inventaire des produits ou les actualités récentes.
→Implémenter un modèle de génération augmentée par récupération (RAG). Connecter le LLM à une base de connaissances externe et à jour (par exemple, une base de données, un magasin de documents).
Pourquoi: RAG permet au modèle d'accéder à des informations en temps réel au moment de l'inférence, surmontant sa limite de connaissances et fournissant des réponses précises et actuelles.
Construire un moteur de recherche d'entreprise ou un agent conversationnel IA basé sur les données de l'entreprise.
→Utiliser Vertex AI Search and Conversation (faisant partie d'Agent Builder). Le pointer vers vos sources de données (sites web, documents) pour créer une application de recherche ou un chatbot.
Pourquoi: C'est une solution gérée, low-code pour la construction d'applications de recherche et de chat de niveau entreprise, réduisant considérablement la complexité du développement.
Un modèle doit acquérir une compétence, une terminologie ou un comportement cohérent très spécialisés que le prompting seul ne peut pas atteindre.
→Effectuer un fine-tuning supervisé sur un modèle de fondation en utilisant un ensemble de données de haute qualité et sélectionné.
Pourquoi: Le fine-tuning adapte les poids internes du modèle, le rendant expert dans un domaine spécifique. Il est plus puissant que le prompting pour une spécialisation approfondie.
Besoin de personnaliser un modèle de fondation pour un domaine spécifique mais manque de ressources pour un fine-tuning complet.
→Utiliser une méthode de fine-tuning efficace en paramètres (PEFT) comme LoRA ou l'adapter tuning disponible dans Vertex AI.
Pourquoi: Le PEFT n'ajuste qu'une petite fraction des paramètres du modèle, obtenant une personnalisation significative avec un coût et un temps de calcul considérablement réduits.
Un modèle échoue à des tâches qui nécessitent un raisonnement complexe en plusieurs étapes (par exemple, problèmes de mathématiques, puzzles logiques).
→Utiliser le prompting "chain-of-thought" (CoT). Demander au modèle de "réfléchir étape par étape" avant de donner la réponse finale.
Pourquoi: Le CoT encourage le modèle à décomposer un problème, ce qui a démontré une amélioration significative de sa capacité de raisonnement et de la précision de la réponse finale sur des tâches complexes.
Le modèle doit générer une sortie de manière cohérente dans un format spécifique (par exemple, JSON, un certain style d'écriture).
→Utiliser le prompting "few-shot". Fournir 2 à 5 exemples du modèle d'entrée-sortie désiré directement dans le prompt.
Pourquoi: Fournir des exemples est plus efficace que de simplement décrire le format. Le modèle apprend le modèle et l'applique à la nouvelle requête.
Choisir la bonne variante du modèle Gemini pour un cas d'utilisation spécifique.
→Utiliser Gemini Pro pour le raisonnement complexe et de haute qualité. Utiliser Gemini Flash pour les tâches à volume élevé, à faible latence et sensibles aux coûts. Utiliser Gemini Nano pour les applications sur appareil.
Pourquoi: Choisir la bonne taille de modèle est un compromis critique entre la capacité, la vitesse et le coût. Utiliser le plus petit modèle qui répond à l'exigence est une bonne pratique.
Appliquer des capacités d'IA générative (par exemple, résumé, analyse des sentiments) aux données stockées dans un entrepôt de données BigQuery.
→Utiliser BigQuery ML pour appeler directement les modèles de fondation Vertex AI avec des commandes SQL. Traiter les données sur place sans les déplacer.
Pourquoi: Cela simplifie l'architecture, améliore la sécurité en gardant les données dans BigQuery et permet aux analystes de données de tirer parti de l'IA en utilisant une syntaxe SQL familière.
Augmenter la productivité des utilisateurs professionnels au sein de leurs outils existants comme Gmail, Docs et Sheets.
→Intégrer Gemini pour Google Workspace. Cela fournit une assistance IA directement dans les applications Workspace pour des tâches comme la rédaction d'e-mails, la synthèse de documents et l'analyse de données.
Pourquoi: Cela apporte les capacités de l'IA aux utilisateurs dans leur flux de travail familier, accélérant l'adoption et offrant des avantages immédiats en termes de productivité sans changement de contexte.
Améliorer la vitesse de développement et la qualité du code.
→Fournir aux développeurs Gemini Code Assist, qui s'intègre dans les IDE pour offrir la complétion, la génération, l'explication de code et la création de tests.
Pourquoi: Les assistants de code IA réduisent le temps passé sur le code répétitif, aident à comprendre les bases de code complexes et améliorent la productivité globale des développeurs.
Choisir le bon outil pour l'expérimentation et le développement de l'IA générative.
→Utiliser Google AI Studio pour un prototypage rapide et gratuit basé sur le web avec les modèles Gemini via une clé API. Utiliser Vertex AI Studio pour un développement de niveau entreprise avec intégration GCP, contrôles de sécurité et capacités MLOps.
Pourquoi: Google AI Studio est destiné au prototypage rapide ; Vertex AI Studio est le chemin vers la production, offrant sécurité d'entreprise, gouvernance des données et évolutivité.
Un agent IA doit adopter une persona spécifique, suivre des règles et maintenir un ton cohérent à travers les conversations.
→Définir le comportement de l'agent à l'aide d'un "system prompt". Cette instruction est fournie au modèle séparément de la requête utilisateur pour guider sa conduite générale.
Pourquoi: Un "system prompt" est le moyen le plus efficace d'établir des directives comportementales durables et cohérentes sans avoir à les répéter dans chaque "prompt" destiné à l'utilisateur.
Une solution nécessite une capacité IA commune et spécifique comme la traduction, la reconnaissance vocale ou la synthèse vocale.
→Utiliser les API pré-entraînées et dédiées : Cloud Translation API, Speech-to-Text API ou Text-to-Speech API.
Pourquoi: Ces API gérées sont hautement optimisées pour leur tâche spécifique et sont plus économiques et plus simples à implémenter que d'utiliser un LLM à usage général pour la même fonction.