Un hito sin precedentes en la IA acaba de revelarse: llega Lince, el primer modelo de lenguaje totalmente entrenado en idioma español. El responsable de este importante paso ha sido la empresa Clibrain, la cual ha conseguido que este modelo alcance resultados comparables a GPT-3. Se trata de un dataset totalmente nuevo e inexistente hasta el momento que puede ser empleado como una API o por las aplicaciones nativas de Clibrain, entre las que se encuentra Clichat, Clibot y Clicall.
La complejidad que ofrece el idioma español para la IA
Aunque las populares aplicaciones de IA ofrecen unos sólidos resultados en el idioma español, hay un cierto gap con algunas expresiones debido a la traducción. A veces se mezclan el castellano con la variedad latina, pero lo cierto es que el idioma español tiene más de 21 variantes para las cuales no existen modelos de lenguaje especializados para la IA. De este modo, muchos de los resultados tienen menos calidad que la deseada por los usuarios, debido a esta serie de matices y el contexto cultural del español.
Los expertos han observado que la inteligencia artificial no está capacitada para entender correctamente el español de Vargas Llosa o el de García Márquez. Hay muchos detalles, metáforas, léxicos autóctonos y contextos culturales que complican a las máquinas, pero, al mismo tiempo, evidencian la riqueza lingüística del español. He ahí el desafío para el desarrollo y entrenamiento de los robots para el segundo idioma más hablado en el mundo.
Yendo más allá, este reto es mucho más evidente cuando entran en juego disciplinas con lenguaje técnico y especializado como las finanzas, el sector jurídico, la medicina o la interpretación de los refranes. Hasta el momento, los intentos de procesamiento mediante las traducciones de inteligencia artificial (IA) provenientes del inglés, arrojan resultados muy distantes de la realidad. Son muy buenos, pero se podría decir que son diamantes en bruto aún sin pulir.
Para Clibrain «es estrictamente necesario el desarrollo de modelos de lenguaje centrados y entrenados en español y en todas y cada una de sus variedades, tanto geográficas, como socioculturales e históricas». Esto permitirá superar las barreras que el contexto o el dialecto pueden representar, asegurando la obtención de resultados precisos y significativos. Sostienen los expertos que es una apuesta estratégica desarrollar las IAs en español y en todas sus variedades para poner en relevancia gracias a la tecnología todo este valor histórico, cultural y económico. A fin de cuentas, se trata de un mercado de 600 millones de hablantes.
Lince abre un largo camino para la IA en perfecto idioma español
Así que el lanzamiento de Lince supone todo un hito tecnológico para los hispanohablantes en el mundo. La primera fase de este modelo de lenguaje empieza con dos versiones: la primera de ellas será abierta bajo licencia Open Source que cuenta con más de 7.000 millones de parámetros denominada LINCE ZERO y que podrá ser usada para que todo el mundo pueda crear sus aplicaciones o utilizarlo sin fines comerciales.
La segunda es una versión y es seis veces superior a la anterior. Esta otra se denomina LINCE y permite manejar IA para mejorar la comunicación en español, independientemente del dialecto y matiz cultural. Para la empresa que está detrás de este histórico proyecto, estamos en las fases iniciales para la creación de todo un modelo fundacional para la aplicación en diversos campos.
Próximamente tendrá que llegar modelos conversacionales, imágenes o embeddings. Ya se sabe que la tecnología avanza rápido, pero todo tiene un proceso y en eso está precisamente Clibrain y su equipo de más de 20 personas. La entidad está fundada y liderada por estos cinco emprendedores: Pablo Fernández (Presidente), Elena González-Blanco (CEO), Pablo Molina (CTO), Paul Martz (CPO) y David Villalón (CAIO).
Contacto para probar el modelo Lince
La organización da la posibilidad de probar LINCE a cualquier interesado. Para ello hay que solicitar acceso en [email protected].