La curva de aprendizaje, parte 2: Cómo crear una IA para diversos dialectos

Galaxy AI es compatible con 16 idiomas, lo que ayuda a más personas a reducir las barreras lingüísticas con la traducción en tiempo real y en el dispositivo. Samsung abrió la puerta a una nueva era de la IA móvil, por lo que estamos visitando los centros de investigación de Samsung en todo el mundo para aprender cómo nació Galaxy AI y lo que se necesitó para superar los desafíos del desarrollo de la IA. Mientras que la primera parte de la serie examina la tarea de determinar qué datos se necesitan, esta segunda entrega analiza la compleja tarea de contabilizar los dialectos.

Enseñar un idioma a un modelo de IA es un proceso complejo, pero ¿qué pasa si no es un idioma singular, sino una recopilación de diversos dialectos? Ese fue el desafío que enfrentó el equipo de Samsung I+D Institute Jordan (SRJO). Si bien se agregó el «árabe» como una opción de idioma para funciones de Galaxy IA como Live Translate, el equipo tuvo que atender a los diversos dialectos árabes que abarcan el Oriente Medio y el norte de África, cada uno de los cuales varía en pronunciación, vocabulario y gramática.

El árabe es uno de los seis idiomas más hablados en todo el mundo y lo utilizan a diario más de 400 millones de personas.
El idioma se clasifica en dos formas: Fus’ha (árabe moderno estándar) y Ammiya (los dialectos del árabe). Fus’ha se utiliza típicamente en eventos públicos y oficiales, así como en las transmisiones de noticias, mientras que Ammiya es más común en las conversaciones cotidianas. Más de 20 países utilizan el árabe, y actualmente existen alrededor de 30 dialectos en la región.

Reglas no escritas

El equipo del SRJO, consciente de las variantes que presentan estos dialectos, empleó una serie de técnicas para discernir y procesar los rasgos lingüísticos únicos inherentes a cada uno de ellos. Este enfoque fue crucial para garantizar que Galaxy AI pudiera comprender y responder de una manera que reflejara con precisión los matices regionales.

«A diferencia de otros idiomas, la pronunciación del objeto en árabe varía en función del sujeto y el verbo de la frase», explica Mohammad Hamdan, jefe de proyecto del equipo de desarrollo del idioma árabe. «Nuestro objetivo es desarrollar un modelo que comprenda todos estos dialectos y pueda responder en árabe estándar».

TTS es el componente de la función Live Translate de Galaxy AI que permite a los usuarios interactuar con personas de diferentes idiomas traduciendo palabras habladas a texto escrito y luego reproduciéndolas por voz. El equipo de TTS enfrentó a un reto único, causado por una peculiaridad de trabajar con árabe.

El árabe utiliza signos diacríticos, que son guías para la pronunciación de palabras en algunos contextos, como textos religiosos, poesía y libros para estudiantes de idiomas. Los diacríticos son ampliamente comprendidos por los parlantes nativos, pero están ausentes en la escritura cotidiana. Esto dificulta que una máquina convierta texto sin formato en fonemas, las unidades básicas de sonido que forman el habla.

«Hay una escasez de conjuntos de datos fiables y de alta calidad que representen con precisión cómo se utilizan correctamente los signos diacríticos», explica Haweeleh. «Tuvimos que diseñar un modelo neuronal que pudiera predecir y restaurar los signos diacríticos faltantes con gran precisión».

Los modelos neuronales funcionan de forma similar a los cerebros humanos. Para predecir los diacríticos, un modelo necesita estudiar muchos textos árabes, aprender las reglas del idioma y comprender cómo se usan las palabras en diferentes contextos. Por ejemplo, la pronunciación de una palabra puede variar mucho según la acción o el género que describa. La exhaustiva capacitación del equipo fue la clave para mejorar la precisión del modelo TTS árabe.

Mejorar la comprensión

El equipo del SRJO también tuvo que recopilar diversas grabaciones de audio de los dialectos procedentes de varias fuentes, que tuvieron que ser transcritas, centrándose en los sonidos, palabras y frases únicas. «Reunimos a un equipo de nativos en los dialectos que conocían bien los matices y variantes», dice Ayah Hasan, cuyo equipo se encargó de la creación de la base de datos. «Escuchaban las grabaciones y convertían manualmente las palabras habladas en texto».

Este trabajo fue fundamental para mejorar el proceso de reconocimiento automático de voz (ASR) para que Galaxy AI pudiera manejar la variedad de dialectos árabes. ASR es fundamental para que Galaxy AI pueda comprender y responder en tiempo real.
«Construir un sistema ASR que admita múltiples dialectos en un único modelo es una tarea compleja», afirma Mohammad Hamdan, responsable de ASR en el proyecto. «Exige un conocimiento profundo de las complejidades del idioma, una cuidadosa selección de datos y técnicas avanzadas de modelado».

La culminación de la innovación

Tras meses de planificación, construcción y pruebas, el equipo estaba listo para lanzar el árabe como opción lingüística para Galaxy AI, lo que permitiría a muchas más personas comunicarse más allá de las fronteras. Este único equipo ha conseguido que los servicios de IA de Galaxy sean accesibles para los que hablan árabe, reduciendo las barreras lingüísticas y culturales entre ellos y las personas de todo el mundo. Al hacerlo, han establecido nuevas buenas prácticas que se pueden extender a todo el mundo. Este éxito es sólo el principio: el equipo sigue perfeccionando sus modelos y mejorando la calidad de las capacidades lingüísticas de Galaxy AI.

En el próximo episodio, iremos a Vietnam para ver cómo el equipo mejora los datos lingüísticos. Además, ¿qué se necesita para entrenar un modelo de IA eficaz?

El árabe es solo una parte de los idiomas y dialectos recientemente admitidos por Galaxy AI y que se pueden descargar desde la aplicación Ajustes. Las funciones lingüísticas de Galaxy AI, como Live Translate e Interpreter, están disponibles en los dispositivos Galaxy que ejecutan la actualización One UI 6.1 de Samsung .