Microsoft lanza Phi-3, su modelo de IA más pequeño hasta la fecha

Microsoft ha lanzado la próxima versión de su modelo liviano impulsado por inteligencia artificial, el Phi-3 Mini, el primero de los tres mini modelos que la compañía planea lanzar.

Phi-3 Mini mide 3.8 mil millones de parámetros y está entrenado en un conjunto de datos más pequeño en comparación con Phi-3 Mini Modelos de lenguajes grandes como GPT-4. Ahora está disponible en Azure, Hugging Face y Ollama. Microsoft planea lanzar Phi-3 Small (parámetros 7B) y Phi-3 Medium (parámetros 14B). Los parámetros indican la cantidad de instrucciones complejas que el modelo puede comprender.

La compañía lanzó el Phi-2 en diciembre, que funcionó de manera similar a modelos más grandes como el Llama 2. Microsoft dice que el Phi-3 funciona mejor que la versión anterior y puede ofrecer respuestas cercanas a las de un modelo 10 veces más grande que él.

dice Eric Boyd, vicepresidente corporativo de Microsoft Azure AI Platform el borde Phi-3 Mini tiene capacidades similares a los programas LLM como GPT-3.5 «solo que en un factor de forma más pequeño».

En comparación con sus homólogos más grandes, los modelos de IA son pequeños Suelen ser más baratos de gestionar y rendir mejor personalmente. Dispositivos como teléfonos y portátiles. la información A principios de este año informé que Microsoft estaba formando un equipo centrado específicamente en modelos ligeros de IA. Junto con Phi, la empresa también construyó Orca-Math, un modelo centrado en la resolución de problemas matemáticos.

Los desarrolladores entrenaron a Phi-3 usando un «programa de estudios», dice Boyd. Se inspiraron en cómo los niños aprenden de los cuentos antes de dormir, los libros que contienen palabras más simples y las estructuras de oraciones que hablan de temas más amplios.

READ  Llegan los primeros emuladores para iPhone certificados por Apple

«No hay suficientes libros para niños, así que tomamos una lista de más de 3.000 palabras y le pedimos a un LLM que creara 'libros para niños' para enseñar a Fai», dice Boyd.

Añadió que Phi-3 simplemente se basa en lo que han aprendido las iteraciones anteriores. Mientras que Phi-1 se centró en la programación y Phi-2 comenzó a aprender a pensar, Phi-3 es mejor programando y razonando. Si bien el conjunto de modelos Phi-3 tiene algunos conocimientos generales, no puede superar a GPT-4 u otro LLM en términos de amplitud: existe una gran diferencia en el tipo de respuestas que puede obtener de un LLM capacitado completamente en línea versus un modelo más pequeño. como Phi -3.

Boyd dice que las empresas a menudo descubren que los modelos más pequeños como el Phi-3 funcionan mejor para sus aplicaciones personalizadas, ya que, para muchas empresas, sus conjuntos de datos internos serán más pequeños de todos modos. Debido a que estos modelos utilizan menos potencia informática, suelen ser mucho más asequibles.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio