Visualfy

Visualfy, la tecnología española que imita el oído humano mediante inteligencia artificial

   

No hay máquina más perfecta que el cerebro humano. Su funcionamiento nos fascina desde tiempos inmemoriales, y la ciencia lleva siglos intentando entenderlo. La inteligencia artificial no es más que el intento de imitar nuestra forma de percibir el mundo y de tomar decisiones, para trasladar esta capacidad a las máquinas, y que éstas nos ayuden a realizar tareas de nuestro día a día, ampliando nuestras capacidades. Y es que la inteligencia artificial es más humanista de lo que imaginamos.

Visualfy Home es un dispositivo IoT que utiliza inteligencia artificial y machine learning, y se integra con otros dispositivos del llamado “internet de las cosas” como wearables o las bombillas inteligentes Philips Hue. Cuando suena el despertador o el timbre en casa de uno de nuestros usuarios, la inteligencia artificial en el interior de nuestro Visualfy Home trabaja en milésimas de segundo para reconocer el sonido, clasificarlo en categorías y avisar al usuario, imitando el oído humano en un proceso complejo”, explica nuestro CTO, Ángel Albiach.

Hoy queremos explicar este proceso de la manera más sencilla posible. Para ello, nos asomamos al departamento de inteligencia artificial de Visualfy, dispuestos a conocer su día a día y aprender más sobre nuestra tecnología.

Hola equipo, ¿nos podríais resumir en qué consiste el trabajo del equipo de IA de Visualfy?

Pedro Zuccarello (Coordinador IA): En Visualfy hemos creado un sistema de reconocimiento de sonidos, que incorpora Inteligencia Artificial. (IA), y trabajamos en su desarrollo y mejora continua. El sistema se está aplicando a diferentes productos y servicios como Visualfy Home (sistema de reconocimiento de sonidos para el hogar) o Visualfy Places (sistema de reconocimiento de sonidos para espacios públicos y privados), pero tiene muchas más aplicaciones que iremos desarrollando.

Hablamos mucho de inteligencia artificial pero ¿en qué consiste exactamente?

P. Z.: El término inteligencia artificial es muy amplio, comprende muchos campos y disciplinas.Nuestro grupo de trabajo se dedica al reconocimiento de sonidos, una disciplina especialmente compleja. A diferencia del reconocimiento de voz -un idioma es un sistema formado por vocales, palabras, frases, o sea, es un sistema cerrado-, el mundo de los sonidos es infinito, lo que hace de nuestro trabajo todo un reto todavía abierto para la comunidad científica.

Javier Naranjo (ingeniero IA): Efectivamente, no toda la inteligencia artificial es igual aunque popularmente nos refiramos a ella de modo genérico. No es lo mismo un algoritmo que predice precios de casas que el algoritmo de Spotify o lo que hacemos nosotros. Son retos muy distintos, que se abordan de manera diferente.

Sergi Pérez (ingeniero IA).: Eso sí, todos tienen un punto en común, que intentan emular la conducta humana, ¡nada menos!

¿Tantas capacidades tiene el cerebro humano?

P.Z. : El cerebro humano es una máquina fascinante.Viendo todas las capacidades que tiene el ser humano es posible hacerse una idea de los campos que puede abarcar la inteligencia artificial, en el presente y en el futuro. Nosotros, en particular, trabajamos la inteligencia artificial para el reconocimiento de sonidos. Pero también hay inteligencia de reconocimiento de imagen o de voz. En términos más técnicos, la clave de nuestro trabajo es hacer que el sistema sea capaz de englobar en una misma categoría cosas que no son iguales.

¿Cómo? ¿Podéis explicarnos un poco mejor a qué os referís?

J.N.: Lo aclaro sí, porque este es un tema clave. Si yo comparo el llanto de un bebé con el llanto de otro bebé punto a punto son completamente diferentes, pero tienen algo en común. Y eso, ese algo en común es lo que necesitamos que el sistema sea capaz de reconocer, para poder diferenciarlo y clasificarlo. Es fácil para una persona, lo hacemos sin pensar (aunque nuestro cerebro también entrena, especialmente los primeros años de nuestra vida), pero para una máquina es todo un reto, especialmente en espacios abiertos donde los estímulos se multiplican. Luego vendrá avisar al usuario, que es otra parte del sistema.

En la imagen hay dos muestras de llantos de bebé.
A priori son diferentes pero tienen algo en común.

¿Cómo conseguimos entonces que una máquina escuche sonidos objetivamente diferentes, varios bebés por ejemplo, pero los reconozca como un mismo tipo de sonido “bebé”?

P. Z.: Borges, en su relato ‘Funes el memorioso lo explica de una forma más poética. Él decía que le llamaba más la atención la capacidad del ser humano de olvidar que de recordar. Porque el ser humano es capaz de olvidar pequeñas diferencias irrelevantes y crear categorías, ¡somos especialistas en esto!

Eso es lo que queremos que el sistema de Visualfy sea capaz de imitar. Que pueda reconocer como parte de una misma categoría sonidos que en un principio son completamente diferentes. O dicho de otro modo, queremos que las máquinas aprendan a olvidar de la manera correcta. Que se queden únicamente con la información que un humano consideraría relevante, la que le permite saber que un bebé es un bebé y un timbre un timbre, desechando lo demás.

¿Cómo funcionan en la práctica los sistemas de Inteligencia Artificial como el de Visualfy?

P.Z. : Imaginemos que queremos enseñar al sistema a que reconozca un bebé llorando. Para ello deberemos enseñarle muchos ejemplos diferentes de como llora un bebé, cuantos más mejor, para que aprenda a encontrar ese punto en común que tienen todos esos ejemplos y reconozca que efectivamente, se trata de un bebé llorando. Además, deberá seguir aprendiendo de manera continua para hacerlo cada vez mejor, decidiendo en segundos si un sonido pertenece o no pertenece a una determinada categoría (bebé, timbre), aunque sea la primera vez que lo escucha. Aprenderá con el uso y también con la exposición a más sonidos en entornos variados.

Nuestro trabajo como ingenieros de inteligencia artificial consiste en entrenar el sistema para que sea capaz de hacer varias selecciones en pocos segundos, reconociendo el sonido con la máxima precisión posible, para luego ser capaz de avisar al usuario. Somos algo así como “entrenadores”.

¿Podéis explicarnos un poco mejor cómo el sistema es capaz de reconocer los sonidos de su entorno y hacerlo cada vez de manera más precisa?

J.N.: Para que pueda clasificar los sonidos del entorno en categorías, le proporcionamos al sistema un modelo matemático con el que trabajar, esto es, le indicamos los valores que debe mirar para entender de qué sonido se trata y clasificarlo en su categoría correspondiente. Así, un sonido indeterminado, pasado por el modelo matemático, será reconocido como un timbre y clasificado como tal. Sería algo así como una receta o guía para que sepa qué características debe mirar en un sonido para poder reconocer la categoría.

S.P.: Esta fórmula matemática es solo un punto de partida. El equipo de ingenieros se ocupa de supervisar métricas para ir mejorándola, además de proporcionar al sistema más ejemplos de sonidos para obtener un grado de acierto cada vez mayor.

Es un proceso que se va repitiendo de modo continuo hasta encontrar la mejor solución posible, la que más se parezca a lo que nosotros sabemos que es. La que imite lo mejor posible a un oído humano, la que se asemeje más a la decisión que tomaríamos nosotros, en definitiva.

J.N.: Se dice que es un sistema de inteligencia artificial porque él solo se va regulando hasta que encuentra la solución óptima, a partir del modelo matemático que se le haya definido de partida y de las iteraciones que se vayan introduciendo. Necesita de la intervención humana pero también aprende solo.

¿Y de dónde salen los ejemplos de sonidos que utilizais para entrenar el sistema?

P. Z. : Tenemos una amplia base de datos de diferentes tipos y fuentes, que hemos ido enriqueciendo con el tiempo.Las muestras proceden de diferentes fuentes: bases de datos públicas, datos recogidos de las casas de los “alfatesters” (personas del equipo o voluntarios que colaboran con nosotros para mejorar el sistema grabando sonidos en sus casas, con un dispositivo especialmente diseñado para ello).

También lanzamos campañas públicas donde invitamos a nuestra comunidad a colaborar. Esta Navidad pasada los papás y mamás colaboraron grabando con su móvil el llanto de su bebé para ayudar a otros papás sordos. Fue todo un éxito y mejoró notablemente nuestra base de datos, clave para el desarrollo de la tecnología. En otras ocasiones, grabamos sonidos en espacios que nos interesan, también previa autorización. Lógicamente todo ello cumpliendo de modo estricto con laGDPR (General Data Protection Regulation). Visualfy es además, el único asistente que no procesa los datos en la nube, esto es, los sonidos nunca salen de casa del usuario. Esto encarece el sistema pero es una garantía muy importante para la privacidad del usuario.

Entonces, tras este proceso de aprendizaje ¿el sistema consigue reconocer todos los sonidos que ‘escucha’ siempre? ¿O existe margen de error?

P.Z. : Visualfy Home es un sistema innovador, que está abriendo camino en el campo de la inteligencia artificial y el reconocimiento de sonidos. Tenemos un grado de acierto muy elevado, que trabajamos para mejorar día a día, pero siempre hay un pequeño margen de error con el que tenemos que contar. No existe ningún clasificador en el mundo que funcione al 100%. Incluso el oído humano falla si le falta el contexto, y puede confundir un timbre con el del vecino, un sonido de la tele con un sonido real o tener problemas para identificar un determinado sonido en un entorno ruidoso.

S.P.: En nuestro caso, trabajamos duramente para que el margen de error sea mínimo. Pero si hay alguna duda de si su bebé está llorando, siempre preferimos avisar al usuario y que el bebé esté durmiendo plácidamente, que no avisarle y que no acuda cuando su bebé más lo necesita. Nuestros usuarios entienden que están apostando por un producto de vanguardia, y se les informa convenientemente para que comprendan su funcionamiento.

Y hasta aquí la entrevista, gracias compañeros por introducirnos en el mundo de la Inteligencia Artificial y el complejo sistema de reconocimiento de sonidos que hay detrás de Visualfy Home.

Como veis, tras el dispositivo Visualfy Home hay mucho trabajo y dedicación. Cada día conseguimos entrenar un poquito más nuestro sistema de Inteligencia Artificial haciendo que sea cada vez más preciso reconociendo los sonidos que escucha. Si queréis aprender más sobre el funcionamiento de Visualfy Home os recomendamos leer nuestro post.