Entrevistamos a Dimitri Kanevsky, Investigador Científico en Google y creador de Live Transcribe.
Dimitri Kanevsky es el creador de Live Transcribe, la aplicación de Google que ha cambiado la forma de comunicarse de millones de personas en todo el mundo. Este matemático ruso apasionado de la tecnología y la inteligencia artificial se ha pasado media vida trabajando para crear soluciones que mejoren la vida de las personas con discapacidad. El reconocimiento de sonidos, y en concreto de voz, es el campo que más le fascina, donde además se ha conseguido avanzar mucho en los últimos años en parte gracias a sus investigaciones. Live Transcribe, su proyecto más reconocido hasta la fecha, es realmente útil para eliminar barreras de comunicación y más aún en los tiempos que corren en los que una atención médica accesible para personas sordas es imprescindible. Junto a esta app Dimitri también está desarrollando otras aplicaciones como Euphonia, un sistema para facilitar la comunicación de las personas que tienen dificultades para pronunciar bien. ¿Te gustaría saber cómo funciona? Sigue leyendo.
Hola Dimitri, algunos de nuestros lectores quizás no conozcan tu trabajo. A modo de introducción, ¿podrías contarnos un poco sobre tu trayectoria profesional y cómo llegaste a trabajar en Google?
Soy del campo de las matemáticas. Hice un doctorado en matemáticas (Teoría de Geometría Algebraica y Numeración) en la universidad estatal de Moscú. Paralelamente a mis estudios de matemáticas desarrollé el primer wearable táctil del mundo capaz de sentir la voz a través de sensores hápticos en la piel.
Más tarde decidí que debía centrarme en desarrollar tecnologías de reconocimiento de voz para ayudar a las personas que no pueden oír al comunicarse. Así que me fui a un equipo de reconocimiento de voz en IBM Research. Allí fui responsable de desarrollar el primer sistema ruso de reconocimiento de voz automático y también otros proyectos clave de reconocimiento de voz para automóviles, teléfonos y sistemas de transmisión de transcripciones.
Después me fui a Google a trabajar al equipo de reconocimiento de sonidos. Empecé siendo responsable de mejorar los algoritmos de reconocimiento de sonidos que proporciona Close Captions para los vídeos de YouTube. Conseguimos un progreso significativo en la transcripción de voz de los vídeos de YouTube. Este progreso en desarrollo algorítmico nos permitió hacer aplicaciones de comunicación de reconocimiento voz para ayudar a personas que no escuchan a comunicarse con todo el mundo (como Live Transcribe y Euphonia).
¿Cómo describirías un día en tu vida como ingeniero de Google?
Ahora mismo me dedico a la investigación científica. Mis días en Google eran muy diferentes antes. Cuando empecé en Google pensaba en algoritmos y códigos casi todo el día. Cambió hace poco cuando empecé a viajar mucho por conferencias y otros eventos internos y externos en Estados Unidos y fuera, donde doy discursos y conozco gente. Estos eventos ahora son posibles gracias a que tenemos sistemas de reconocimiento de voz que me permiten entender lo que otras personas me dicen (a través de Live Transcribe) y a otras personas entenderme (con Euphonia) ya que tengo un fuerte acento.
Si no estoy viajando una parte de mi día consiste en atender videollamadas y reuniones con equipos de Google e ingenieros con los que estoy trabajando en diferentes proyectos: Live Transcribe, Euphonia, representación de audio a través de sensores hápticos (la continuación de mi proyecto de dispositivos táctiles de hace años), etc. Ahora estoy más organizando, coordinando proyectos y generando ideas.
Durante años tu trabajo se ha centrado en las tecnologías de reconocimiento de sonidos. ¿Qué tiene esta área que tanto te fascina?
Es realmente difícil encontrar métodos para perfeccionar el reconocimiento de voz. Mi sueño era conseguir un reconocimiento de voz que me permitiese a mi y a otros que no oímos a comunicarnos con personas libremente (perdí la audición cuando era muy pequeño y durante años me dediqué a leer labios y a utilizar servicios de transcripción para entender lo que me decía la gente). Había estado durante 30 años trabajando en el reconocimiento de voz cuando finalmente mi sueño se hizo realidad.
"Mi sueño era conseguir un reconocimiento de voz que me permitiese a mi y a otros que no oímos a comunicarnos con personas libremente" #DimitriKanevsky Clic para tuitearA pesar de ser una tecnología revolucionaria, trabajar con inteligencia artificial requiere mucha experiencia, entrenamiento y por supuesto paciencia. ¿Cómo trabajáis tú y tu equipo?
Yo y otros ingenieros de Google tenemos la suerte de tener acceso a muchos equipos de Google que trabajan con diferentes aplicaciones de inteligencia artificial de diferentes tipos (reconocimiento visual y de voz, percepción, interpretación de sonido e imagen, traducción, etc.). Cuando yo o alguien más en Google vemos que hay un significativo progreso en algunas de estas áreas, pensamos en qué aplicaciones pueden ser desarrolladas a raíz de estos hallazgos para ayudar a gente y especialmente gente con discapacidad.
Hay un evento muy especial en Google que reúne a trabajadores de Google de diferentes países cada año para dar ideas y trabajar durante unas semanas en prototipos con un gran potencial para ayudar a personas con discapacidad. Estos prototipos se presentan en este evento tan especial y se eligen los mejores para desarrollarlos más adelante. Así es como Live Transcribe, que ahora cuenta con millones de usuarios y está en más de 70 idiomas diferentes disponible, fue desarrollado.
Tu aplicación Live Transcribe ha mejorado mucho la comunicación entre las personas sordas y oyentes, sin embargo, la gente está empezando a hablar de Euphonia, otra aplicación que estás desarrollando y que presentaste en el último evento de Google en Madrid. ¿Qué nos puedes contar de ella?
Live Transcribe no puede entender a personas con pronunciaciones no estándares como personas con enfermedades neurológicas como ELA, síndrome de Down, esclerosis múltiple, ictus o sordas. Millones de personas en todo el mundo presentan estas características. El objetivo de Euphonia es ayudar a personas con dificultad de pronunciación a comunicarse por medio de sus propias voces.
Euphonia desarrolla modelos de reconocimiento de voz personalizados para cada persona. Cuando una persona con dificultades de pronunciación habla utilizando Euphonia, la app transcribe todo lo que dice. Esto permite a otras personas o dispositivos de voz interactivos (como Google Home o Google Assistant) entenderle. De esta forma, para que una persona pueda utilizar Euphonia debe primero leer muchas frases en voz alta para que su voz pueda ser entrenada creando un modelo acústico específico para esa persona.
"El objetivo de Euphonia es ayudar a personas con dificultad de pronunciación a comunicarse por medio de sus propias voces." #DimitriKanevsky Clic para tuitear
Euphonia todavía es un proyecto de investigación que tiene muchos colaboradores maravillosos. La idea la iniciaron los trabajadores de Google Michael Brenner y Joel Shor. Actualmente está disponible solo para algunos beta testers (*personas que se encargan de probar su funcionamiento). En algunos documentales como ‘Healed through A.I’ o ‘Today Show’ explican muy bien como los beta testers con ELA utilizan el reconocimiento de voz de Euphonia en sus vidas. Es importante recoger más datos para que eventualmente los nuevos usuarios con dificultad para pronunciar bien puedan utilizar Euphonia sin necesitar emplear mucho tiempo grabando su voz. Además todo aquel con estas características que quiera contribuir a la recogida de datos de voz puede hacerlo aquí: http://bit.ly/AudioData
Yo mismo utilizo Euphonia para hacer presentaciones de todo tipo. Le hablo a mi móvil que tiene Euphonia y la transcripción de mi discurso aparece en la pantalla. Así la audiencia puede entenderme sin poblemas. En total he grabado unas 25 horas de mi voz y ha valido la pena hacerlo. Es maravilloso poder hacer presentaciones y hablar con gente que antes no me entendía.
Gracias a tu trabajo se ha hecho un progreso considerable en el campo del reconocimiento de voz. En tu opinión, ¿cuál es el siguiente reto a abordar para seguir mejorando la calidad de vida de las personas sordas y con pérdida auditiva?
Para empezar me gustaría decir que mucha gente sorda utiliza Lengua de Signos para comunicarse, de modo que deberíamos también desarrollar tecnologías de reconocimiento de Lengua de Signos. Desarrollar estas tecnologías no es nada fácil sobre todo porque la Lengua de Signos gramaticalmente es muy diferente de la lengua oral. Aún así Google está trabajando también en esta dirección.
Otro de nuestros grandes retos es mejorar nuestras tecnologías de reconocimiento de voz para que funcionen bien en entornos ruidosos o cuando varias personas están hablando a la vez (como en una cafetería).
Hace unos meses tuvimos la oportunidad de entrevistar a tu compañero de Google Vinton Cerf, quien nos habló de tu trabajo y cómo la inteligencia artificial va a cambiar por completo las vidas de las personas con discapacidad. ¿Cuánto tiempo crees que pasará hasta que veamos un cambio significativo?
Recibimos mensajes de gente que nos dice cómo Live Transcribe les ha cambiado la vida. Todavía hay abiertos muchos retos que tendrán un gran impacto en las vidas de personas que no oyen bien o con con cualquier otra discapacidad. Esto crecerá mucho más. Cada vez más y más personas con diferentes discapacidades nos ayudarán a desarrollar mucho más la Inteligencia Artificial.
Ahora mismo, con la crisis sanitaria que estamos viviendo, nos damos cuenta de que todavía existen barreras de comunicación en infinidad de ámbitos, como por ejemplo los hospitales. ¿Crees que tecnologías como Live Transcribe podrían ayudar a eliminar estas barreras?
La transcripción de voz se hace muy necesaria cuando personas que no escuchan visitan a sus médicos o para aquellos que viven en residencias de ancianos. En muchas ocasiones cuando una persona sorda acude a un hospital no hay intérpretes de Lengua de Signos. En estos casos estas personas podrían comunicarse con los médicos a través Live Transcribe. Del mismo modo Live Transcribe también ayuda a comunicarse a las personas mayores que viven en residencias de ancianos. Live transcribe también puede ayudar a los hijos de estas personas a comunicarse con ellas en estos momentos en los que el acceso es limitado a las residencias. En este vídeo se puede ver un ejemplo de cómo unos nietos y una hija se comunican con una persona que no escucha a través de una puerta de cristal de una residencia.
"La transcripción de voz se hace muy necesaria cuando personas que no escuchan visitan a sus médicos." #DimitriKanevsky Clic para tuitearHas pensado en la posibilidad de implementar Live Transcribe en los hospitales?
Si, tener servicios de transcripción de voz en los hospitales ha sido siempre una necesidad que está ganando relevancia durante la pandemia. Estamos trabajando para hacerlo posible.
Las próximas semanas van a ser un reto para todos. Nos gustaría recomendar a nuestra comunidad herramientas que les ayuden a seguir conectados pese al distanciamiento social. ¿Se te ocurre algo?
Mucha de la comunicación que se está produciendo ahora es online. Para comunicarse de forma online, además de Live Transcribe hay también otros servicios de transcripción realmente útiles como las que hay en Google Meet y que son realmente útiles para todo el mundo, también para personas que escuchan bien. Muchas veces la calidad del audio que se transmite a través de internet es mala y no se escucha con claridad. La transcripción traduce en tiempo real todo lo que se dice y suele ser de buena calidad.
Muchas gracias Dimitri por acceder a la entrevista. Ha sido un placer poder conocer tu trabajo de primera mano y ya estamos deseando poder probar Euphonia. Mucha suerte en tus próximos proyectos.