Alibaba presenta dos modelos de IA de código abierto que comprenden imágenes

Alibaba presenta dos modelos de IA de código abierto para imágenes

El gigante tecnológico chino Alibaba Group está ampliando los límites de la inteligencia artificial (IA) al introducir dos innovadores modelos de lenguaje de visión amplia (LVLM) de código abierto. La empresa afirmó que las herramientas de IA Qwen-VL y Qwen-VL-Chat pueden entender imágenes y responder a consultas complejas mejor que sus otras creaciones.

La unidad de nube de la empresa, Alibaba Cloud, desarrolló y capacitó ambos modelos de lenguaje de IA. Según informes, la compañía dijo que Qwen-VL fue diseñado para ser el sofisticado descendiente de su modelo de 7 mil millones de parámetros, Tongyi Qianwen. Este modelo dinámico exhibe la capacidad de procesar imágenes y textos de manera fluida. La versatilidad abarca desde abordar consultas abiertas relacionadas con imágenes diversas hasta crear leyendas de imágenes cautivadoras.

Qwen-VL-Chat, por otro lado, fue diseñado para abordar interacciones más complejas. El modelo de IA, impulsado por técnicas avanzadas de alineación, cuenta con una impresionante variedad de habilidades. Desde componer poesía y narrativas basadas en imágenes de entrada hasta condensar el contenido de múltiples imágenes e incluso resolver preguntas matemáticas complejas incrustadas en imágenes.

Alibaba Explora las Capacidades de la IA

Estas dos tecnologías están listas para redefinir el panorama de las capacidades de IA, ofreciendo una notable fusión de comprensión de imágenes e interacción de texto en inglés y chino.

La compañía dijo que el modelo Qwen-VL fue entrenado utilizando imágenes e información de texto. Durante el entrenamiento, Alibaba descubrió que puede manejar imágenes más grandes (resolución de 448×448) en comparación con modelos similares que solo pueden trabajar con imágenes de tamaño pequeño (resolución de 224×224).

La tecnología de IA también mostró habilidades impresionantes en tareas que involucran imágenes e idioma durante el entrenamiento. Alibaba reveló que la herramienta de IA podía describir fotos sin información previa, responder preguntas sobre imágenes e incluso detectar objetos en imágenes.

El segundo modelo, Qwen-VL-Chat, también demostró sus habilidades en conversaciones sobre imágenes. Según la compañía, la tecnología de IA se desempeñó excepcionalmente bien en chino e inglés, según un conjunto de pruebas de referencia establecido por Alibaba Cloud.

Al igual que el primer modelo, Qwen-VL-Chat superó a otras herramientas de IA en la comprensión y discusión de la relación entre palabras e imágenes. La prueba incluyó una amplia gama de más de 300 fotografías, 800 preguntas y 27 categorías diferentes.

Compromiso con las Tecnologías de Código Abierto

Alibaba reveló su intención de proporcionar los dos modelos de IA como soluciones de código abierto a la comunidad global. Una vez que se concluyan los preparativos, estas herramientas estarán disponibles de forma gratuita para cualquier persona en todo el mundo. Este movimiento permite el desarrollo de aplicaciones de IA sin la necesidad de un extenso entrenamiento del sistema, lo que resulta en gastos reducidos.

A principios de este mes, la compañía causó revuelo al liberar como código abierto sus otras aplicaciones de IA, Qwen-7B y Gwen-7B-Chat, dentro de un mes de su presentación. El movimiento atrajo a muchos desarrolladores a la compañía, registrando más de 400,000 descargas en total.