Microsoft ha lanzado la próxima versión de su modelo liviano impulsado por inteligencia artificial, el Phi-3 Mini, el primero de los tres mini modelos que la compañía planea lanzar.
Phi-3 Mini mide 3.8 mil millones de parámetros y está entrenado en un conjunto de datos más pequeño en comparación con Phi-3 Mini Modelos de lenguajes grandes como GPT-4. Ahora está disponible en Azure, Hugging Face y Ollama. Microsoft planea lanzar Phi-3 Small (parámetros 7B) y Phi-3 Medium (parámetros 14B). Los parámetros indican la cantidad de instrucciones complejas que el modelo puede comprender.
La compañía lanzó el Phi-2 en diciembre, que funcionó de manera similar a modelos más grandes como el Llama 2. Microsoft dice que el Phi-3 funciona mejor que la versión anterior y puede ofrecer respuestas cercanas a las de un modelo 10 veces más grande que él.
dice Eric Boyd, vicepresidente corporativo de Microsoft Azure AI Platform el borde Phi-3 Mini tiene capacidades similares a los programas LLM como GPT-3.5 «solo que en un factor de forma más pequeño».
En comparación con sus homólogos más grandes, los modelos de IA son pequeños Suelen ser más baratos de gestionar y rendir mejor personalmente. Dispositivos como teléfonos y portátiles. la información A principios de este año informé que Microsoft estaba formando un equipo centrado específicamente en modelos ligeros de IA. Junto con Phi, la empresa también construyó Orca-Math, un modelo centrado en la resolución de problemas matemáticos.
Los desarrolladores entrenaron a Phi-3 usando un «programa de estudios», dice Boyd. Se inspiraron en cómo los niños aprenden de los cuentos antes de dormir, los libros que contienen palabras más simples y las estructuras de oraciones que hablan de temas más amplios.
«No hay suficientes libros para niños, así que tomamos una lista de más de 3.000 palabras y le pedimos a un LLM que creara 'libros para niños' para enseñar a Fai», dice Boyd.
Añadió que Phi-3 simplemente se basa en lo que han aprendido las iteraciones anteriores. Mientras que Phi-1 se centró en la programación y Phi-2 comenzó a aprender a pensar, Phi-3 es mejor programando y razonando. Si bien el conjunto de modelos Phi-3 tiene algunos conocimientos generales, no puede superar a GPT-4 u otro LLM en términos de amplitud: existe una gran diferencia en el tipo de respuestas que puede obtener de un LLM capacitado completamente en línea versus un modelo más pequeño. como Phi -3.
Boyd dice que las empresas a menudo descubren que los modelos más pequeños como el Phi-3 funcionan mejor para sus aplicaciones personalizadas, ya que, para muchas empresas, sus conjuntos de datos internos serán más pequeños de todos modos. Debido a que estos modelos utilizan menos potencia informática, suelen ser mucho más asequibles.