¿Sientes que ya no puedes hablar con tranquilidad en ninguna parte? Quizás tengas esta sensación porque has escuchado de “bossware”, una herramientas que algunas empresas usan para escuchar a sus empleados cuando están cerca de sus computadoras. Incluso existen miles de apps de “spyware” que tienen la capacidad de grabar llamadas telefónicas. Hasta dispositivos domésticos como Echo de Amazon pueden grabar conversaciones cotidianas. Por tanto, si ya no quieres sentirte espiado, Neural Voice Camouflage podría ser la tecnología que estabas buscando. Esta genera un ruido de audio personalizado de fondo mientras hablas, acción que ayuda a confundir a la inteligencia artificial que transcribe las voces grabadas.
¿Cómo funciona Neural Voice Camouflage?

Neural Voice camouflage usa un “ataque adversario”. La estrategia de este sistema se basa en emplear aprendizaje automático, así los algoritmos pueden encontrar patrones en los datos y así modificar los sonidos. Y así lograr que una IA, pero no las personas, los confundan con otra cosa. Básicamente, todo se resume en esto: usarás una IA para engañar a otra IA.
Pero el proceso no es tan fácil como parece. La IA de aprendizaje automático necesita procesar todo el clip de sonido antes de saber cómo modificarlo, hecho que no es muy práctico cuando quieres camuflarlo en tiempo real.
¿Cómo fue creado este sistema?
El objetivo de los investigadores era lograr que el sistema pudiera predecir el futuro de manera efectiva. El sistema fue entrenado durante muchas horas de voz grabada, con el fin de que pudiera procesar constantemente clips de audio de 2 segundos. Y así disfrazar lo que probablemente se diga a continuación.
De este modo, si alguien acaba de decir “disfruten de la gran fiesta”, no puede predecir exactamente lo que se dirá a continuación. Sin embargo, al tener en cuenta lo que se acaba de decir, el sistema producirá sonidos que interrumpirán una gama de posibles frases que podrían seguir.
Los científicos superpusieron la salida de su sistema en voz grabada mientras se alimentaba directamente a uno de los sistemas de reconocimiento automático de voz (ASR) que podrían usar espías para transcribir. El sistema aumentó la tasa de errores de palabras del software ASR del 11,3 % al 80,2 %.
Las tasas de error para el habla disfrazada por ruido blanco y un ataque adversario competitivo fueron solo 12.8% y 20.5%, respectivamente. El trabajo se presentó en un documento el mes pasado en la Conferencia Internacional sobre Representaciones de Aprendizaje.
Incluso cuando el sistema ASR fue entrenado para transcribir el habla perturbada por Neural Voice Camouflage, su tasa de error se mantuvo en 52.5%.
Los investigadores también probaron el método en el mundo real. Lo que hicieron fue reproducir una grabación de voz combinada con el camuflaje a través de un conjunto de altavoces en la misma habitación que un micrófono. Según los investigadores, el sistema funcionó. Por ejemplo: “A mí también me acaban de comprar un monitor nuevo” se transcribió como “con motivos de que también toscat y neumanitor”.
Un paso para mantener la privacidad
De acuerdo con Mia Chiquier, una científica informática de la Universidad de Columbia que dirigió la investigación, este es el primer paso para salvaguardar la privacidad frente a la IA. También añade: “La inteligencia artificial recopila datos sobre nuestra voz, nuestros rostros y nuestras acciones. Necesitamos una nueva generación de tecnología que respete nuestra privacidad”.
Chiquier señala que la parte predictiva del sistema tiene potencial para otras aplicaciones que necesitan procesamiento en tiempo real, tales como los vehículos autónomos. Según la investigadora: “Tienes que anticipar dónde estará el automóvil a continuación y dónde podría estar el peatón. Estamos emulando la forma en que los humanos hacen las cosas”.
Esperamos que esa investigación llegue muy lejos y ayude a las personas a mantener cierto margen de privacidad.