Alibaba presenta dos modelos de IA de código abierto que comprenden imágenes
Alibaba presenta dos modelos de IA de código abierto para imágenes
El gigante tecnológico chino Alibaba Group está ampliando los límites de la inteligencia artificial (IA) al introducir dos innovadores modelos de lenguaje de visión amplia (LVLM) de código abierto. La empresa afirmó que las herramientas de IA Qwen-VL y Qwen-VL-Chat pueden entender imágenes y responder a consultas complejas mejor que sus otras creaciones.
La unidad de nube de la empresa, Alibaba Cloud, desarrolló y capacitó ambos modelos de lenguaje de IA. Según informes, la compañía dijo que Qwen-VL fue diseñado para ser el sofisticado descendiente de su modelo de 7 mil millones de parámetros, Tongyi Qianwen. Este modelo dinámico exhibe la capacidad de procesar imágenes y textos de manera fluida. La versatilidad abarca desde abordar consultas abiertas relacionadas con imágenes diversas hasta crear leyendas de imágenes cautivadoras.
Qwen-VL-Chat, por otro lado, fue diseñado para abordar interacciones más complejas. El modelo de IA, impulsado por técnicas avanzadas de alineación, cuenta con una impresionante variedad de habilidades. Desde componer poesía y narrativas basadas en imágenes de entrada hasta condensar el contenido de múltiples imágenes e incluso resolver preguntas matemáticas complejas incrustadas en imágenes.
Alibaba Explora las Capacidades de la IA
Estas dos tecnologías están listas para redefinir el panorama de las capacidades de IA, ofreciendo una notable fusión de comprensión de imágenes e interacción de texto en inglés y chino.
- HashKey lanzará servicios de comercio de criptomonedas en Hong Kong el 28 de agosto
- Protocolo 1inch expande servicios a la red L2 respaldada por Ethereum y Coinbase
- Dropbox se despide del plan de almacenamiento ilimitado debido al uso abusivo
La compañía dijo que el modelo Qwen-VL fue entrenado utilizando imágenes e información de texto. Durante el entrenamiento, Alibaba descubrió que puede manejar imágenes más grandes (resolución de 448×448) en comparación con modelos similares que solo pueden trabajar con imágenes de tamaño pequeño (resolución de 224×224).
La tecnología de IA también mostró habilidades impresionantes en tareas que involucran imágenes e idioma durante el entrenamiento. Alibaba reveló que la herramienta de IA podía describir fotos sin información previa, responder preguntas sobre imágenes e incluso detectar objetos en imágenes.
El segundo modelo, Qwen-VL-Chat, también demostró sus habilidades en conversaciones sobre imágenes. Según la compañía, la tecnología de IA se desempeñó excepcionalmente bien en chino e inglés, según un conjunto de pruebas de referencia establecido por Alibaba Cloud.
Al igual que el primer modelo, Qwen-VL-Chat superó a otras herramientas de IA en la comprensión y discusión de la relación entre palabras e imágenes. La prueba incluyó una amplia gama de más de 300 fotografías, 800 preguntas y 27 categorías diferentes.
Compromiso con las Tecnologías de Código Abierto
Alibaba reveló su intención de proporcionar los dos modelos de IA como soluciones de código abierto a la comunidad global. Una vez que se concluyan los preparativos, estas herramientas estarán disponibles de forma gratuita para cualquier persona en todo el mundo. Este movimiento permite el desarrollo de aplicaciones de IA sin la necesidad de un extenso entrenamiento del sistema, lo que resulta en gastos reducidos.
A principios de este mes, la compañía causó revuelo al liberar como código abierto sus otras aplicaciones de IA, Qwen-7B y Gwen-7B-Chat, dentro de un mes de su presentación. El movimiento atrajo a muchos desarrolladores a la compañía, registrando más de 400,000 descargas en total.