Descubrir, probar e implementar una variedad de modelos fundacionales en Google Cloud.
→Utilice Vertex AI Model Garden como catálogo central para los modelos propietarios de Google (Gemini), modelos de código abierto (Llama, Mistral) y modelos de socios.
Por qué: Model Garden es el punto de entrada unificado para acceder a un conjunto curado de modelos fundacionales, simplificando el descubrimiento y la implementación dentro de un entorno de nivel empresarial.
Referencia↗
Un asistente de IA necesita responder preguntas sobre información que cambia con frecuencia, como el inventario de productos o noticias recientes.
→Implementar un patrón de Generación Aumentada por Recuperación (RAG). Conectar el LLM a una base de conocimiento externa y actualizada (p. ej., una base de datos, un almacén de documentos).
Por qué: RAG permite al modelo acceder a información en tiempo real en el momento de la inferencia, superando su límite de conocimiento y proporcionando respuestas precisas y actuales.
Construir un motor de búsqueda empresarial o un agente de IA conversacional basado en datos de la empresa.
→Utilice Vertex AI Search and Conversation (parte de Agent Builder). Apúntelo a sus fuentes de datos (sitios web, documentos) para crear una aplicación de búsqueda o un chatbot.
Por qué: Esta es una solución gestionada y de bajo código para construir aplicaciones de búsqueda y chat de nivel empresarial y basadas en datos, reduciendo significativamente la complejidad del desarrollo.
Un modelo necesita aprender una habilidad altamente especializada, terminología o comportamiento consistente que el prompting por sí solo no puede lograr.
→Realizar un fine-tuning supervisado en un modelo fundacional utilizando un conjunto de datos curado de ejemplos de alta calidad.
Por qué: El fine-tuning adapta los pesos internos del modelo, convirtiéndolo en un experto en un dominio específico. Es más potente que el prompting para una especialización profunda.
Necesidad de personalizar un modelo fundacional para un dominio específico pero careciendo de los recursos para un fine-tuning completo.
→Utilice un método de Fine-Tuning Eficiente en Parámetros (PEFT) como LoRA o adapter tuning disponible en Vertex AI.
Por qué: PEFT ajusta solo una pequeña fracción de los parámetros del modelo, logrando una personalización significativa con un costo computacional y tiempo drásticamente menores.
Un modelo está fallando en tareas que requieren un razonamiento complejo y de varios pasos (p. ej., problemas de matemáticas, rompecabezas de lógica).
→Utilice el prompting de cadena de pensamiento (CoT). Indique al modelo que "piense paso a paso" antes de dar la respuesta final.
Por qué: CoT anima al modelo a desglosar un problema, lo que ha demostrado mejorar significativamente su capacidad de razonamiento y la precisión de la respuesta final en tareas complejas.
El modelo necesita generar consistentemente una salida en un formato específico (p. ej., JSON, un cierto estilo de escritura).
→Utilice el prompting few-shot. Proporcione 2-5 ejemplos del patrón de entrada-salida deseado directamente en el prompt.
Por qué: Proporcionar ejemplos es más efectivo que solo describir el formato. El modelo aprende el patrón y lo aplica a la nueva solicitud.
Elegir la variante de modelo Gemini adecuada para un caso de uso específico.
→Utilice Gemini Pro para razonamiento complejo y de alta calidad. Utilice Gemini Flash para tareas de alto volumen, baja latencia y sensibles al costo. Utilice Gemini Nano para aplicaciones en el dispositivo.
Por qué: Seleccionar el tamaño de modelo correcto es un compromiso crítico entre capacidad, velocidad y costo. Utilizar el modelo más pequeño que cumpla con el requisito es una mejor práctica.
Aplicar capacidades de IA generativa (p. ej., resumen, análisis de sentimientos) a datos almacenados en un data warehouse de BigQuery.
→Utilice BigQuery ML para llamar directamente a los modelos fundacionales de Vertex AI con comandos SQL. Procese los datos en su lugar sin moverlos.
Por qué: Esto simplifica la arquitectura, mejora la seguridad al mantener los datos dentro de BigQuery y permite a los analistas de datos aprovechar la IA utilizando una sintaxis SQL familiar.
Aumentar la productividad de los usuarios de negocio dentro de sus herramientas existentes como Gmail, Docs y Sheets.
→Integre Gemini para Google Workspace. Esto proporciona asistencia de IA directamente dentro de las aplicaciones de Workspace para tareas como redactar correos electrónicos, resumir documentos y analizar datos.
Por qué: Esto lleva las capacidades de IA a los usuarios en su flujo de trabajo familiar, acelerando la adopción y proporcionando beneficios de productividad inmediatos sin cambiar de contexto.
Mejorar la velocidad del desarrollador y la calidad del código.
→Proporcionar a los desarrolladores Gemini Code Assist, que se integra en los IDEs para ofrecer completado de código, generación, explicación y creación de pruebas.
Por qué: Los asistentes de código de IA reducen el tiempo dedicado al código repetitivo, ayudan a comprender bases de código complejas y mejoran la productividad general del desarrollador.
Elegir la herramienta adecuada para la experimentación y el desarrollo de IA generativa.
→Utilice Google AI Studio para prototipos rápidos y sin costo basados en la web con modelos Gemini a través de una clave de API. Utilice Vertex AI Studio para desarrollo de nivel empresarial con integración con GCP, controles de seguridad y capacidades de MLOps.
Por qué: Google AI Studio es para prototipos rápidos; Vertex AI Studio es el camino hacia la producción, ofreciendo seguridad empresarial, gobernanza de datos y escalabilidad.
Un agente de IA necesita adoptar una personalidad específica, seguir reglas y mantener un tono consistente en las conversaciones.
→Defina el comportamiento del agente utilizando un system prompt. Esta instrucción se proporciona al modelo por separado de la consulta del usuario para guiar su conducta general.
Por qué: Un system prompt es la forma más efectiva de establecer directrices de comportamiento duraderas y consistentes sin tener que repetirlas en cada prompt dirigido al usuario.
Una solución requiere una capacidad de IA común y específica como traducción, voz a texto o texto a voz.
→Utilice las APIs preentrenadas y específicas: Cloud Translation API, Speech-to-Text API o Text-to-Speech API.
Por qué: Estas APIs gestionadas están altamente optimizadas para su tarea específica y son más rentables y sencillas de implementar que usar un LLM de propósito general para la misma función.