Los científicos desarrollan un agente de monitoreo de IA para detectar y detener salidas nocivas
Los científicos crean un agente inteligente de monitoreo para detectar y prevenir conductas nocivas
Un equipo de investigadores de la firma de inteligencia artificial (IA) AutoGPT, la Universidad Northeastern y Microsoft Research ha desarrollado una herramienta que monitorea modelos de lenguaje grandes (LLMs, por sus siglas en inglés) en busca de salidas potencialmente dañinas y evita que se ejecuten.
El agente es descrito en un artículo de investigación preliminar titulado “Probando agentes de modelos de lenguaje de manera segura en la vida real”. Según la investigación, el agente es lo suficientemente flexible como para monitorear LLMs existentes y puede detener salidas dañinas, como ataques de código, antes de que ocurran.
Según la investigación:
“Las acciones del agente son auditadas por un monitor sensible al contexto que impone un límite estricto de seguridad para detener una prueba insegura, con comportamientos sospechosos clasificados y registrados para su examen por parte de los humanos”.
- El precio de Worldcoin (WLD) fluctúa tras los eventos en la industria de la IA, incluida la destitución de Sam Altman
- Investigación del DOJ lleva a Tether a congelar $225M asociados con una red de tráfico humano
- Dfinity se asocia con SingularityNET, un protocolo de blockchain, para lanzar una iniciativa conjunta de IA
El equipo escribe que las herramientas existentes para monitorear las salidas de LLMs en busca de interacciones dañinas aparentemente funcionan bien en entornos de laboratorio, pero cuando se aplican a modelos de prueba ya en producción en Internet abierto, “a menudo no logran capturar las complejidades dinámicas del mundo real”.
Esto, al parecer, se debe a la existencia de casos límite. A pesar de los mejores esfuerzos de los científicos informáticos más talentosos, la idea de que los investigadores puedan imaginar cada posible vector de daño antes de que ocurra se considera en gran medida una imposibilidad en el campo de la IA.
Incluso cuando los humanos interactúan con IA con las mejores intenciones, pueden surgir daños inesperados a partir de indicaciones aparentemente inocuas.

Para entrenar al agente de monitoreo, los investigadores construyeron un conjunto de datos de casi 2,000 interacciones seguras entre humanos y AI en 29 tareas diferentes que van desde tareas simples de recuperación de texto y correcciones de código hasta el desarrollo de páginas web completas desde cero.
Relacionado: Meta disuelve la división de IA responsable en medio de una reestructuración
También crearon un conjunto de datos de prueba competitivo lleno de salidas adversariales creadas manualmente, incluyendo docenas diseñadas intencionalmente para ser inseguras.
Luego, los conjuntos de datos se utilizaron para entrenar a un agente en el modelo GPT 3.5 turbo de OpenAI, un sistema de última generación capaz de distinguir entre salidas inocuas y potencialmente dañinas con un factor de precisión de casi el 90%.