La voz y el lenguaje como parte del desarrollo de la inteligencia artificial
Así será el futuro de las tecnologías basadas en la voz
¿Qué fue primero, la voz o el texto? Es curioso pensar que, desde un punto de vista formal, los humanos aprendemos primero a hablar y luego a escribir mientras que sucede justo lo contrario con los ordenadores, que primero han aprendido a escribir, de hecho están compuestos por sistemas operativos, y ahora están aprendiendo a hablar.
El enorme auge de los asistentes de voz virtuales como Alexa de Amazon, Google Home, Siri, Aura o Cortana, la incorporación de interfaces conversacionales o chatbots a distintas aplicaciones de servicios en los sectores de seguros, banca o bienes de consumo así como el incremento de dispositivos con altavoz y micrófono, conectados a estos asistentes, nos permiten afirmar que las tecnologías digitales basadas en el lenguaje, y más específicamente en la voz, van a experimentar un gran impulso en los próximos años.
En EEUU el 20% de la población usa asistentes de voz en el hogar, en el coche o en otros contextos de movilidad. Recientemente, Amazon Alexa ha manifestado que cuentan con más de 100 millones de dispositivos en el mercado y unos 85.000 dispositivos adicionales compatibles, desde bombillas a lavadoras o electrodomésticos con Alexa integrada en el propio dispositivo. En el ámbito de la empresa y de la industria, los dispositivos conversacionales están utilizándose para los Call Centers, para ayudar en la decisión de compra y para mejorar la experiencia de clientes y, en algunos casos, de empleados. Un estudio de Capgemini (2019) dice claramente que “Más de tres cuartas partes de las empresas (76%) señala haber obtenido beneficios cuantificables de las iniciativas de implantación de asistentes de voz o chat en sus procesos y el 58%, que esos beneficios han cubierto e incluso superado sus expectativas.”
¿Qué fue primero, la voz o el texto?
Las cifras y el análisis del entorno muestran que estamos en un momento de crecimiento de los dispositivos de voz y del desarrollo de servicios alrededor de los mismos, tanto en al ámbito del hogar como en el de la empresa. Este crecimiento se da por varias razones; en el entorno de consumo porque integra en la tecnología a colectivos con menos habilidades digitales, mayores, por ejemplo, y porque tiene innumerables casos de uso en la vida cotidiana en contextos en los que necesitamos “hacer cosas en función de manos libres”, como son la conducción, el cuidado de un bebé o la cocina, por citar algunos más comunes.
Y, en el mundo empresarial y en el industrial necesitamos activar servicios por voz, tener conversaciones con nuestros clientes, con nuestras máquinas en fábrica o con nuestros empleados. Hoy mismo, con la Skill de Iberia para Alexa, ya podemos sacar nuestras tarjetas de embarque de vuelos de dicha compañía con una solicitud hecha por voz. Por otro lado, la automatización está presente en nuestras fábricas desde hace mucho tiempo y es habitual en algunas industrias encontrar procesos automáticos que necesitan de la activación por voz en la cadena de montaje, por ejemplo en la de automóviles, en las que el operario está con las manos ocupadas con herramientas o repuestos de gran volumen, como lunas o baterías.
Años de investigación
El conjunto de tecnologías alrededor de lo que denominamos procesamiento del lenguaje natural (PLN o NLP en inglés) lleva en fase de investigación y desarrollo muchos años. Un ejemplo de ello es que tanto grandes multinacionales de las telecomunicaciones como la propia Comisión Europea estuvieron invirtiendo en los años 90 en el desarrollo de traductores automáticos multilingües. Eran sistemas basados en reglas gramaticales y con un elevado nivel de error que exigía mucha revisión posterior de las traducciones. Sin embargo, cuando Google lanza su traductor en 2006, basado en reglas estadísticas, a las que luego incorporó técnicas de aprendizaje automático sobre redes neuronales, el salto cualitativo fue enorme. Y ello se debió al enorme corpus de textos existentes ya en Internet y al desarrollo del Big Data y del aprendizaje automático (Machine Learning), que están permitiendo aprender a los dispositivos conversacionales y alcanzar un elevado nivel de precisión. Todo ello ha ido evolucionado y ahora se está trasladando al desarrollo de aplicaciones y servicios conversacionales: alarmas que se activan por voz para operarios de infraestructuras, aplicaciones de voz para el control de calidad en fábricas o aplicaciones asociadas a geolocalización para turismo y viajes.
Y, como ha sucedido en el ámbito de las Apps para teléfonos inteligentes, alrededor de los asistentes de voz se está creando una comunidad de desarrolladores de aplicaciones que incorporan perfiles, no solo de IT y UX sino también de lingüística computacional. Esta generación de lingüistas que se incorporan a proyectos del ecosistema digital está aportando una visión diferente, desde el humanismo tecnológico, y una gran capacidad analítica desde la comprensión lógico-lingüística del lenguaje natural y del habla. No solo se trata de hablar sino de entender y contextualizar. La dificultad estriba en que el lenguaje natural es aprendido de forma inconsciente, no es estructurado y permite infinitas combinaciones mientras que el lenguaje artificial es estructurado y finito.
Desde las corrientes de lingüística estructuralista de comienzos del siglo XX se acepta que la lengua es el conjunto de reglas y signos común a los hablantes y el habla es lo que cada individuo utiliza como vehículo de expresión de esa lengua; la combinación de lengua y habla es lo que nos permite comunicarnos. Si esto lo trasladamos a la lingüística computacional vemos que el reto es complejo y entendemos la importancia del contexto y de combinar reglas gramaticales en su sentido más amplio (fonéticas, léxicas, sintácticas y semánticas) con reglas estadísticas propias de las tecnologías de aprendizaje automático.
La incorporación de la voz y de todas las tecnologías asociadas al PLN es un buen ejemplo de lo que nos espera los próximos años: la colaboración inteligente y de forma conectada entre hombre y máquina; entre muchas personas en diferentes localizaciones que contribuyan a que el corpus del habla incremente las capacidades de los servicios digitales basados en voz, como ya pasó con el lenguaje escrito con Wikipedia, Google Search o Google Translate.
El uso intensivo por parte de las personas mejora las capacidades de cualquier proyecto de IA y los asistentes virtuales de voz son el mejor ejemplo de cómo las máquinas aprenden de la experiencia, tanto de las propias máquinas como de la interacción con humanos, para el reconocimiento automático del habla y el entendimiento del contexto.
Demos voz a los expertos en el lenguaje
Si hasta la fecha entendíamos el ecosistema digital como algo propio de informáticos, estadísticos y perfiles de ciencias, es ahora el tiempo de incorporar a los profesionales vinculados a las industrias de la lengua.
Por María Barceló, Directora del EMDB en ESADE Madrid, Consultora en transformación digital y asesora en Comités de Dirección y Start Ups.