Saltar al reproductorSaltar al contenido principalSaltar al pie de página
  • hoy
En el Consejo Científico de la Universidad de La Habana, Yudivián Almeida, director del Grupo de Investigación en IA, presentó una 'Cecilia', un modelo de lenguaje aprobado para reflejar el español en la era digital. Más que un logro tecnológico, es un proyecto civilizatorio que defiende la identidad cultural desde la innovación. Un hito para la ciencia cubana. teleSUR

Categoría

🗞
Noticias
Transcripción
00:00Es el Consejo Científico de la Universidad de La Habana del mes de julio.
00:05El director del Grupo de Investigación de Inteligencia Artificial de la Casa de Altos Estudios,
00:10Yudivian Almeida, presenta a Cecilia, modelo de lenguaje que pretende una voz propia
00:15para el español cubano en la era digital.
00:17Un empeño no solo tecnológico, también civilizatorio.
00:20Estamos hablando de que estamos defendiendo nuestra cultura, nuestro idioma,
00:25nuestras maneras de hacer desde la tecnología, en cómo poder utilizar un modelo de lenguaje
00:32que va a servir para construir aplicaciones que además puedan ser funcionales,
00:36puedan estar a tono con la realidad tecnológica y de recursos que tiene el país.
00:44Ellos son parte del grupo que desarrolla a Cecilia.
00:47El modelo de lenguaje entrenado con un corpus robusto de 2.7 GB de textos
00:52que incluyen literatura, enciclopedias, canciones o recetas de cocina.
00:57Todo cubano.
00:58De entre las primeras cosas que quisimos hacer era a partir de un modelo ya pre-entrenado,
01:02entonces debíamos conseguir un corpus cubano, data cubana.
01:09Entre ellos recopilamos 400 obras literarias, la Gaceta Oficial,
01:15los dos últimos 10 años de Granma y Juventud Reverde, entre muchas de las cosas.
01:22Entonces lo que hicimos en el departamento es conseguir y generar el corpus de datos
01:26que era inexistente cubano, además de eso, y limpiarlo para con eso entrenar el modelo de lenguaje.
01:35Debido a las características culturales, infraestructura tecnológica y capacidades económicas del país,
01:41se tomó al modelo de lenguaje Salamandra 2B como el punto de partida para la creación de Cecilia,
01:46que aún requiere procesos de entrenamiento y ajustes para su optimización y pleno desarrollo.
01:52Hay que hacer un proceso ahora de entrenamiento en instrucciones,
01:55que es como se llama, intuition fine tuning, que hay que construir otro conjunto de datos
01:58que ya no es texto básico, ya no es libros, literatura, canciones, ahora son conversaciones.
02:05Hay que hacer un conjunto de conversaciones de ejemplos, donde un usuario habla con Cecilia,
02:09Cecilia responde, y entonces si logramos construir un corpus,
02:12que estamos apuntando a tener unas 10.000 instrucciones de este estilo,
02:16podemos hacer entonces el segundo proceso de entrenamiento de instrucciones
02:19para convertir a Cecilia en un modelo de lenguaje que sea capaz de chatear
02:22y poder hacer, poder empezar a construir aplicaciones encima de eso.
02:25Según sus creadores, Cecilia permitirá reducir la dependencia tecnológica,
02:30fomentar la innovación tecnológica local y aumentar la accesibilidad y democratización
02:35del uso de aplicaciones basadas o que usen modelos generativos.
02:38Hasta ahora se ha desarrollado con infraestructura que no es propia,
02:41sino en colaboración con universidades del primer mundo,
02:45universidades de España como la Universidad de Alicante.
02:48Entonces, ahora mismo todavía es un proyecto que no lleva financiamiento
02:54desde el punto de vista del gobierno,
02:56que sí creemos que es algo que debe ocurrir a largo plazo,
02:59porque es la manera de recoger y salvar tu identidad.
03:03Lo que no preserves ahora es muy posible que no sobrevive en un mundo de internet,
03:06porque nuestros jóvenes, nuestros niños cada vez hablan más con el lenguaje que leen
03:11y que escriben, y por lo tanto hay palabras que sencillamente van a terminar desapareciendo.
03:16La idea es que Cecilia sea una herramienta que propicie que la cultura,
03:20el lenguaje y las particularidades cubanas tengan voz propia en esta era de transformación digital,
03:26fortaleciendo la soberanía tecnológica.
03:28Cecilia apenas comienza, pero ya entiende cómo se habla en esta isla,
03:33y eso la hace única.
03:35Fabiola López, Telesur, La Habana.

Recomendada