Stability AI lanza el primero de sus paquetes de modelos lingüísticos StableLM

Stability AI ha lanzado un nuevo modelo lingüístico de código abierto, StableLM, cuya versión Alpha está disponible en 3.000 y 7.000 millones de parámetros. Le seguirán modelos de 15.000 a 65.000 millones de parámetros, según ha apuntado la propia compañía. “Los desarrolladores pueden inspeccionar, utilizar y adaptar libremente nuestros modelos base StableLM con fines comerciales o de investigación, sujetos a los términos de la licencia CC BY-SA-4.0”, explican en un comunicado en su web.

En 2022, Stability AI impulsó el lanzamiento público de Stable Diffusion, un revolucionario modelo de imagen que representa una alternativa transparente, abierta y escalable a la IA propietaria. Con el lanzamiento del conjunto de modelos StableLM, Stability AI continúa haciendo accesible a todos la tecnología fundamental de la IA. Estos modelos StableLM pueden generar texto y código e impulsarán una serie de aplicaciones posteriores, demostrando cómo modelos pequeños y eficientes pueden ofrecer un alto rendimiento con la formación adecuada.

El lanzamiento de StableLM se basa en la experiencia de Stability AI en modelos lingüísticos de código abierto con EleutherAI, un centro de investigación sin ánimo de lucro. Estos modelos lingüísticos incluyen GPT-J, GPT-NeoX y la suite Pythia, que fueron entrenados en el conjunto de datos de código abierto The Pile. Muchos modelos lingüísticos recientes de código abierto siguen basándose en estos esfuerzos, como Cerebras-GPT y Dolly-2.

StableLM se entrena en un nuevo conjunto de datos experimental basado en The Pile, pero tres veces mayor, con 1,5 billones de tokens de contenido. La riqueza de este conjunto de datos proporciona a StableLM un rendimiento sorprendentemente alto en tareas de conversación y codificación, a pesar de su pequeño tamaño de 3.000 a 7.000 millones de parámetros (en comparación, GPT-3 tiene 175.000 millones de parámetros).

Además, Stability AI está publicando un conjunto de modelos de investigación que se ajustan a las instrucciones y que utilizarán en principio una combinación de 5 conjuntos de datos recientes de código abierto para agentes conversacionales: Alpaca, GPT4All, Dolly, ShareGPT y HH. Estos modelos perfeccionados están destinados exclusivamente a la investigación y se publican bajo una licencia CC BY-NC-SA 4.0 no comercial, en línea con la licencia Alpaca de Stanford.

Transparencia, accesibilidad y solidaridad

“Los modelos lingüísticos constituirán la columna vertebral de nuestra economía digital, y queremos que todo el mundo tenga voz en su diseño. Modelos como StableLM demuestran nuestro compromiso con una tecnología de IA transparente, accesible y solidaria”, apuntan desde Stability AI antes de pasar a explicar los siguientes puntos detalladamente.

  • Transparente. Los modelos son de código abierto para promover la transparencia y fomentar la confianza. Los investigadores pueden "mirar bajo el capó" para verificar el rendimiento, trabajar en técnicas de interpretabilidad, identificar riesgos potenciales y ayudar a desarrollar salvaguardas. Las organizaciones de los sectores público y privado pueden adaptar ("afinar") estos modelos de código abierto para sus propias aplicaciones sin compartir sus datos confidenciales ni renunciar al control de sus capacidades de IA.

  • Accesible. La compañía explica que diseña para la periferia, de modo que los usuarios cotidianos puedan ejecutar nuestros modelos en dispositivos locales. Utilizando estos modelos, los desarrolladores pueden crear aplicaciones independientes compatibles con hardware ampliamente disponible en lugar de depender de los servicios patentados de una o dos empresas. De este modo, los beneficios económicos de la IA son compartidos por una amplia comunidad de usuarios y desarrolladores. “El acceso abierto y detallado a nuestros modelos permite a la amplia comunidad investigadora y académica desarrollar técnicas de interpretabilidad y seguridad más allá de lo que es posible con modelos cerrados”, señalan.

  • Solidaria. “Construimos modelos para apoyar a nuestros usuarios, no para sustituirlos”, dicen. “Nos centramos en el rendimiento eficiente, especializado y práctico de la IA, no en la búsqueda de una inteligencia divina. Desarrollamos herramientas que ayudan a la gente corriente y a las empresas corrientes a utilizar la IA para liberar la creatividad, impulsar su productividad y abrir nuevas oportunidades económicas”.

Los modelos ya están disponibles en su repositorio de GitHub. Además, próximamente pondrán en marcha su programa de crowdsourcing RLHF y colaborarán con iniciativas comunitarias como Open Assistant para crear un conjunto de datos de código abierto para asistentes de inteligencia artificial.

Fuente: Stability AI

Anterior
Anterior

Así pueden los publishers mejorar el rendimiento de una campaña al mismo tiempo que evitar la emisión de CO2

Siguiente
Siguiente

¿Es la neuroprogramática el futuro de la publicidad contextual?