Miles de empleados de Amazon escuchan lo que le dices a Alexa

Un equipo global revisa grabaciones de audio de todo tipo de los hogares para tratar de mejorar el asistente de voz

trabajadores amazon
El Echo Spot, el reloj despertador inteligente con alexa, de Amazon.

Decenas de millones de personas usan altavoces inteligentes y su software de voz para jugar, encontrar música o simplemente buscar cosas triviales. Millones más se resisten a instalar estos dispositivos y sus poderosos micrófonos en sus hogares por la preocupación de que alguien pueda estar escuchando.

A veces, alguien está haciéndolo.

Amazon emplea a miles de personas en todo el mundo para ayudar a mejorar el asistente digital Alexa que se conecta con los altavoces Echo. El equipo escucha las grabaciones de voz capturadas en los hogares y oficinas de los propietarios de Echo. Las grabaciones se transcriben, se anotan y luego se devuelven al software como parte de un proceso que busca eliminar las brechas en la comprensión de Alexa del lenguaje humano y ayudarlo a responder mejor a las órdenes.

El proceso de revisión de voz de Alexa, descrito por siete personas que han trabajado en el programa, destaca el papel humano que a menudo se pasa por alto en la formación de algoritmos de software. En sus documentos de marketing, Amazon señala que Alexa "vive en la nube y siempre se está volviendo más inteligente". Pero al igual que muchas herramientas de software creadas para aprender de la experiencia, los humanos están haciendo algo por enseñarles. 

Edificio de Bucarest donde tiene oficinas Amazon.
Edificio de Bucarest donde tiene oficinas Amazon.

El equipo está compuesto por una combinación de colaboradores y empleados a tiempo completo de Amazon que trabajan de Boston a Costa Rica, India y Rumania, según diversas fuentes, que han firmado acuerdos de confidencialidad que les impiden hablar públicamente sobre el programa. Trabajan nueve horas al día, y cada revisor analiza hasta 1.000 clips de audio por turno, según dos trabajadores de la oficina de Amazon en Bucarest, que ocupa los tres pisos superiores del edificio Globalworth en la capital de Rumanía. Las modernas instalaciones destacan en medio de un barrio en obras y no tienen ningún letrero exterior que anuncie la presencia de Amazon.

El trabajo es sobre todo rutinario. Un trabajador de Boston ha señalado que extrajo datos de voz acumulados sobre expresiones específicas como "Taylor Swift" y los anotó para indicar que el buscador se refería  a la artista musical. De vez en cuando, los trabajadores recogen cosas que los propietarios de Echo probablemente preferirían que se quedaran en el ámbito privado: una mujer que canta mal en la ducha, por ejemplo, o un niño que grita pidiendo ayuda. Los equipos utilizan salas de chat internas para compartir archivos cuando necesitan ayuda para analizar una palabra confusa o para encontrar una grabación divertida.

A veces escuchan grabaciones que encuentran molestas, o posiblemente con indicios criminales. Dos de los trabajadores han asegurado que recogieron lo que creen que fue un asalto sexual. Cuando algo así sucede, pueden compartir la experiencia en la sala de chat interna como una forma de rebajar el estrés. Amazon señala que hay procedimientos establecidos para  cuando los trabajadores escuchan algo preocupante, pero dos empleados con sede en Rumania dijeron que, después de solicitar orientación para tales casos, se les dijo que no era la misión de Amazon interferir.

"Tomamos en serio la seguridad y privacidad de la información personal de nuestros clientes", dijo un portavoz de Amazon en un comunicado enviado por correo electrónico. “Solo anotamos una muestra extremadamente pequeña de las grabaciones de voz de Alexa para mejorar la experiencia del cliente. Por ejemplo, esta información nos ayuda a capacitar a nuestros sistemas de reconocimiento de voz y comprensión del lenguaje natural, para que Alexa pueda comprender mejor sus solicitudes y garantizar que el servicio funcione bien para todos".

Política de privacidad

Amazon añade que en la compañía se siguen "estrictas garantías técnicas y operativas, y tenemos una política de tolerancia cero para el abuso de nuestro sistema. Los empleados no tienen acceso directo a la información que puede identificar a la persona o cuenta como parte de este flujo de trabajo. Toda la información se trata con alta confidencialidad y utilizamos la autenticación de múltiples factores para restringir el acceso, el cifrado del servicio y las auditorías de nuestro entorno de control para protegerlo ".

Altavoces inteligentes Echo de Amazon con Alexa en una tienda de Berkeley (California).
Altavoces inteligentes Echo de Amazon con Alexa en una tienda de Berkeley (California).

Amazon, en sus política de marketing y privacidad, no recoge explícitamente que haya personas escuchando las grabaciones de algunas conversaciones recogidas por Alexa. "Usamos sus solicitudes a Alexa para capacitar a nuestros sistemas de reconocimiento de voz y comprensión del lenguaje natural", dice la compañía en una lista de preguntas frecuentes.

En la configuración de privacidad de Alexa, la empresa ofrece a los usuarios la opción de desactivar el uso de sus grabaciones de voz para el desarrollo de nuevas funciones. Una captura de pantalla revisada por Bloomberg muestra que las grabaciones enviadas a los auditores de Alexa no proporcionan el nombre completo ni la dirección del usuario, sino que están asociadas con un número de cuenta, así como con el nombre y el número de serie del dispositivo.

El medio online The Intercept informó a principios de este año que los empleados de Ring, propiedad de Amazon, identifican manualmente los vehículos y las personas en los vídeos capturados por las cámaras que se sitúan en las puertas de entrada de las casas,  con el objetivo de mejorar el software.

"No necesariamente debes pensar que otra persona esté escuchando lo que le estás diciendo a un  interlocutor en la intimidad de tu hogar", apunta Florian Schaub, un profesor de la Universidad de Michigan especializado en temas de privacidad relacionados con los asistentes inteligentes. "Creo que hemos estado condicionados por la [suposición] de que estas máquinas solo están llevando a cabo un aprendizaje de máquina mágica. Pero el hecho es que todavía hay procesos manuales involucrados", señala Schaub

"Si eso es un problema de privacidad o no, depende de cuán cautelosos sea Amazon y otras compañías en cuanto al tipo de información que han recogido manualmente y cómo se presenta esa información a alguien", agregó.

Cuando Echo debutó en 2014, el altavoz inteligente cilíndrico de Amazon, rápidamente popularizó el uso de software de voz en el hogar. En poco tiempo, Alphabet lanzó su propia versión, llamada Google Home, al que siguió el HomePod de Apple. Varias compañías también venden sus propios dispositivos en China. Según la consultora Canalys, los consumidores compraron 78 millones de altavoces inteligentes el año pasado. Millones más usan software de voz para interactuar con asistentes digitales en sus teléfonos inteligentes.

Palabras de alerta

El software de Alexa está diseñado para grabar continuamente fragmentos de audio, escuchando una palabra de alerta. Eso es lo que hace por defecto si se cita en voz alta el nombre "Alexa" , pero el usuario puede cambiarlo por "Echo" o por "ordenador". Cuando se detecta la palabra de activación, el anillo de luz en la parte superior del Echo se vuelve azul, lo que indica que el dispositivo está grabando y transmitiendo un comando a los servidores de Amazon

La mayoría de los sistemas modernos de reconocimiento de voz se basan en el modelo de redes neuronales del cerebro humano. El software aprende sobre la marcha, al detectar patrones en medio de enormes cantidades de datos. Los algoritmos que impulsan Echo y otros altavoces inteligentes utilizan modelos de probabilidad para realizar conjeturas basadas en información previa. Si alguien le pregunta a Alexa si hay un lugar griego cerca, los algoritmos saben que el usuario probablemente está buscando un restaurante, no una iglesia o centro comunitario.

Pero a veces Alexa se equivoca, especialmente cuando se enfrenta a una nueva expresión coloquial, regionalismos o lenguas distintas del inglés. En francés, avec sa, "con su" o "con ella" puede confundir al software de manera que interprete que alguien está usando la palabra de alerta de "Alexa". La palabra en español Hecho a veces se interpreta como Echo. Y así con otros términos. Es por eso que Amazon reclutó ayudantes humanos para tratar de interpretar aquello a donde los algoritmos no llegan.

El sistema Siri de Apple también tiene ayudantes humanos, que trabajan para evaluar si la interpretación de las solicitudes del asistente digital se alinea con lo que realmente ha querido decir la persona. Las grabaciones que revisan carecen de información de identificación personal y se almacenan durante seis meses, vinculadas a un identificador aleatorio, según un documento de seguridad de Apple. Después, los datos se eliminan de su información de identificación aleatoria, pero se pueden almacenar por períodos más largos para mejorar el reconocimiento de voz de Siri.

En Google, algunos revisores pueden acceder a algunos fragmentos de audio de su Asistente para ayudar a mejorar el producto, pero no está asociado con ninguna información de identificación personal y el audio está distorsionado, según la compañía.

Una reciente oferta de trabajo de Amazon, buscando un gerente de control de calidad para Alexa Data Services en Bucarest, describe el papel que juegan las personas en el proceso: "Todos los días ella [Alexa] escucha a miles de personas que hablan con ella sobre diferentes temas y diferentes idiomas, y necesita nuestra ayuda a darle sentido a todo ". El anuncio de la oferta laboral continúa: "Este es una utilización del big data como nunca se  había visto antes. Estamos creando, etiquetando, y analizando enormes cantidades de palabras a diario ".

Muestra aleatoria

El proceso de revisión de Amazon para datos de voz comienza cuando Alexa extrae una pequeña muestra aleatoria de las grabaciones de voz de los clientes y envía los archivos de audio a los empleados y colaboradores remotos, según una persona familiarizada con el diseño del programa.

Algunos revisores de Alexa tienen como tarea transcribir las órdenes de los usuarios, comparar las grabaciones con la transcripción automática de Alexa, por ejemplo, o anotar la interacción entre el usuario y la máquina. ¿Qué preguntó la persona? ¿Alexa proporcionó una respuesta efectiva?

Otros anotan todo lo que el dispositivo capta, incluidas las conversaciones de fondo, también cuando los niños están hablando. A veces, los oyentes escuchan a los usuarios discutir detalles privados como nombres o datos bancarios; en tales casos, se supone que deben marcar un cuadro  que apunta a "datos críticos". Luego pasan al siguiente archivo de audio.

Según Amazon, no se almacena un audio a menos que Echo detecte la palabra clave o se active presionando un botón. Pero a veces, Alexa parece comenzar a grabar sin ningún aviso previo, y los archivos de audio comienzan con ruido de una televisión o un sonido ininteligible. Ya sea que la activación se produzca por error o no, los revisores deben transcribirla. Una de las personas encargadas ha señalado que cada uno de los revisores transcribe hasta 100 grabaciones por día sin que Alexa haya recibido un comando de activación o se haya activado por error.

Según dos de los revisores, en los hogares de todo el mundo, los usuarios de Echo especulan con frecuencia acerca de quién podría estar escuchando. “¿Trabajas para la Agencia de Seguridad Nacional (NSA)?” preguntan. "Alexa, ¿alguien más nos está escuchando?".

Sí, te pueden escuchar.

Normas