Los modelos de IA han podido mirar imágenes y decirle lo que pueden ver dentro de la imagen durante años, pero con la actualización de primavera, OpenAI ha llevado las cosas a un nuevo nivel.
Con la introducción de GPT-4o en ChatGPT, incluso sin funcionalidad de audio y video, OpenAI ha presentado uno de los mejores modelos de visión de IA lanzados hasta la fecha.
Su éxito se debe en parte a que es multimedia, teniendo un conocimiento más profundo de imágenes, vídeo, audio y texto. Puede razonar a través de imágenes, voz, video y texto donde otras formas se convierten primero en texto.
Para probar sus habilidades, le di una serie de fotografías y le pedí que describiera lo que podía ver. Cuanto más preciso sea el modelo. Muchas veces, los modelos de visión de IA, incluido el GPT-4, pasan por alto uno o dos objetos o obtienen una descripción incorrecta.
Prueba de visión GPT-4o
En cada prueba, a ChatGPT-4o se le proporcionó la imagen y el mensaje «¿Qué es esto?» Sin ningún contexto ni información adicional. Esto se acerca más a cómo la gente probablemente use esta capacidad en el mundo real y cómo la usé recientemente en un evento en París.
El objetivo es ver qué tan bien se analiza la imagen. Hice un seguimiento en cada ocasión para preguntar si podía detectar si una imagen fue generada por IA o no. Todos se crean utilizando un ideograma de la descripción creada por Claude 3, completamente IA.
Después del primer par de fotos de la conversación, empezó a decirme espontáneamente si pensaba que la foto había sido generada por IA o no, sin que yo tuviera que preguntarle.
Comencé con la aplicación ChatGPT Desktop pero comenzó a no responder, así que pasé a la web y funcionó bien.
1. Reconocer objetos
Para esta primera imagen, creé la imagen de una taza de cerámica roja llena de café caliente. Estaba colocado en un plato sobre una mesa de madera en una cafetería, pero no se distinguía la cafetería. La idea es ver cómo GPT-4o interpreta el trasfondo y el escenario.
GPT-4o escribió: «Esta imagen muestra una taza de café humeante en una taza roja y un platillo colocados sobre una mesa de madera rústica. El fondo está borroso y representa un ambiente interior acogedor con personas sentadas y hablando en lo que parece ser una cueva. como una cafetería o un interior único con paredes de piedra». La atención se centra en la taza de café, resaltando el vapor que se eleva de la bebida caliente.
Esto es lo más preciso y descriptivo posible. Incluso hacer un dibujo de la escena va más allá de una simple descripción. A modo de broma le pregunté: “Describe los pensamientos de la persona sentada a la mesa con este café listo para tomar”.
Ella respondió con una descripción bastante descriptiva, pero esta línea destacó: “Este café es más que una simple bebida; Es un ritual, un preciado momento de soledad y contemplación en medio del ajetreo y el bullicio de la vida cotidiana.
2. Reconocimiento óptico de caracteres (OCR)
El reconocimiento óptico de caracteres (OCR) es una tecnología tan antigua como la informática, por lo que debería ser trivial para cualquier modelo de visión, incluso los teléfonos inteligentes lo hacen en el dispositivo. Le di una foto sencilla que mostraba un primer plano de un viejo cartel de madera que decía «Bienvenido a Oakville» en un estilo antiguo escrito a mano. Quiero algo más que mensajes de texto de la IA.
GPT-4o entregado; Escrito: «Esta foto muestra un letrero de aspecto antiguo que dice ‘Bienvenido a Oakville’. El letrero parece desgastado, con un acabado rústico antiguo, lo que indica que ha estado expuesto a los elementos durante algún tiempo. El texto está en negrita y blanca. sobre un fondo rojo, con algunos signos de desgaste, lo que aumenta su encanto nostálgico. El letrero está parcialmente rodeado de vegetación, lo que sugiere que pudo haber sido colocado afuera, tal vez en la entrada de una ciudad o comunidad llamada Oakville.
El texto no sólo se leyó correctamente, sino que también sugirió más detalles sobre la ubicación, identificando una posible ciudad o asentamiento y extrayendo detalles del letrero en sí.
3. Reconocimiento facial
Este es un uso controvertido de la tecnología de inteligencia artificial y, en cierto modo, está prohibido en la Unión Europea. Pero, ¿qué tan bien puede GPT-4o describir una cara? La imagen era una representación generada por IA de una mujer de unos 40 años con cabello oscuro y cálidos ojos marrones. Tenía una sonrisa amistosa.
GPT-4o lo describió de la siguiente manera: “Esta imagen es un primer plano de una mujer sonriente con cabello oscuro y rizado. La atención se centra en su rostro, que está bien iluminado y muestra detalles de la textura y los rasgos de la piel. expresión amistosa, y sus ojos miran directamente a la cámara. El fondo está borroso «, enfocándose en el tema».
Quería un poco más, incluso a cierta edad. Le pregunté: «¿Cuántos años tiene esta persona y cuál es su estado emocional?» Ella respondió que tiene entre 30 y 40 años y que se encuentra en un estado mental positivo, y explicó: “La impresión general es que se encuentra en un buen lugar emocionalmente y probablemente se siente bien y cómoda”.
4. Revelar sentimientos
A continuación, quería ver qué tan bien le iría a GPT-4o con una imagen de un anciano con una expresión triste. ¿Va a capturar eso o simplemente describirá la escena? Recuerda que la única entrada que tenía era «qué es esto» y la imagen.
GPT-4o funcionó bien. La foto decía: “Esta foto es una fotografía de un anciano sentado en un banco al aire libre, probablemente en un parque. La iluminación indica que la foto fue tomada durante la hora dorada, con la suave luz del sol resaltando su rostro. pensativo, con un ligero toque melancólico o contemplativo. Viste camisa con cuello y chaqueta, y el fondo está difuminado, centrando la atención en el hombre y proporcionando un ambiente agradable y natural.
El modelo de IA hizo exactamente lo que esperaba: describió la escena e hizo sugerencias sobre lo que el hombre podría estar sintiendo en ese momento.
5. Comprende la escena
¿Qué tan bien puede GPT-4o describir una escena a partir de una imagen e identificar elementos dentro de la escena? Esta es una habilidad útil ya que los modelos de IA se utilizan cada vez más para ayudar a describir el mundo real. Es una de las principales características del nuevo modo de audio de ChatGPT.
“Esta foto muestra un animado mercado de agricultores al aire libre en un día soleado”, anunció GPT-4o. “Se han instalado varios puestos debajo de las tiendas de campaña, que muestran una gran cantidad de productos frescos, incluidas frutas, verduras y otros productos. explorar, comprar e interactuar con los vendedores”. El mercado parece estar ubicado en una hermosa zona arbolada, con follaje verde de fondo. El ambiente se siente animado y comunitario, con énfasis en productos locales y frescos.
No hay mucho que decir. Fue preciso en su descripción de la imagen y la situación. Proporcionó más detalles de los que esperaba y destacó algunos de los productos en oferta.
6. Evaluación de la calidad de la imagen
Le pedí a Ideogram que creara cuatro imágenes casi idénticas en una cuadrícula, pero dándole a cada una una resolución o nivel de composición diferente. Quería ver cómo GPT-4o describiría esto. Puede manejar la imagen básica, pero ¿qué pasa con cuatro de ellas, cada una un poco diferente?
«La imagen es una colección de cuatro fotografías de paisajes dispuestas en una cuadrícula, cada una de las cuales muestra una vista impresionante de colinas cubiertas de hierba verde y flores silvestres bajo un cielo lleno de nubes», escribió GPT-4o. Hasta ahora, todo bien.
Continúa: “La foto superior izquierda muestra un cielo degradado de color rosa suave y azul, que sugiere el amanecer o el anochecer, con colinas bañadas en una cálida luz dorada, realzando la hierba verde vibrante y las flores amarillas y blancas. La foto superior derecha muestra una escena similar pero. en tonos apagados, lo que sugiere temprano en la mañana o al final de la tarde. La imagen inferior izquierda tiene colores más fríos y un cielo azul más claro, lo que sugiere mediodía con una iluminación más suave. La imagen inferior derecha es más cálida y saturada, con un tinte rosado en el cielo, lo que sugiere el. luz de una puesta de sol Cálida Estas diferencias en la iluminación y el tono de color ilustran cómo las diferentes horas del día y las técnicas fotográficas pueden afectar el estado de ánimo y la apariencia de la misma escena natural.
Aunque no entendía el propósito de la cuadrícula de cuatro imágenes (comparar la composición), pudo describir cada una individualmente, lo cual fue impresionante. De hecho, ella hizo su propia comparación de las fotos.
7. Detección de múltiples objetos
Finalmente, existe una prueba importante para que un modelo sea útil como herramienta de accesibilidad: qué tan bien detecta objetos en una escena llena de gente. Mismo reclamo que otros. La foto muestra un escritorio desordenado y espero que saque al menos una cosita.
GPT-4o escribió: “La foto muestra un espacio de trabajo de oficina moderno y organizado con una vista de la ciudad visible a través de grandes ventanales en el fondo. El escritorio está cuidadosamente ordenado con muchos elementos que normalmente se encuentran en un entorno de trabajo productivo, incluida una computadora portátil en una central. una lámpara de escritorio de metal y una taza de café sugieren una atmósfera relajada pero concentrada. Cuadernos y papeles dispersos sugieren trabajo activo y toma de notas, mientras que una pequeña planta en maceta agrega un toque de vegetación. Una fotografía enmarcada de dos personas brinda un toque personal, potencialmente. sirviendo como recurso de motivación El espacio de trabajo está lleno de suministros de oficina como bolígrafos, lápices y organizadores, lo que garantiza la funcionalidad. El telón de fondo urbano del horizonte de la ciudad con modernos edificios de gran altura crea un ambiente dinámico e inspirador.
Funcionó. Decidí hacer un seguimiento y pedirle que me dijera el color de la maceta y funcionó de inmediato. Entonces le pedí que buscara mis lentes en la foto y dijo correctamente: «Tus lentes están en el escritorio a la derecha de la computadora portátil, encima de una libreta».
resumen
Cada modelo de visión que he usado en el pasado ha cometido al menos un error, generalmente uno importante, como identificar erróneamente un objeto o no seleccionar un color o una marca.
GPT-4o obtiene todos estos puntos. El paso a una verdadera multimodalidad ha cambiado las reglas del juego para OpenAI.
También demuestra el valor potencial de las gafas inteligentes como el verdadero futuro de la interacción de datos. Olvídese del teléfono inteligente, usemos la visión para fusionar lo real y lo digital.