¿Es legal clonar la voz mediante inteligencia artificial?

  • agosto 30, 2023
  • Jorge Morell Ramos

Hace unos días se supo que Google y Universal Music trabajan en una herramienta para facilitar la clonación y recreación de voces de cantantes populares para que los usuarios puedan usarlas en redes sociales de todo tipo, monetizando esas copias.

Por otra parte, los actores del mundo de los videojuegos están preocupados ya que los modders (fans que modifican las características de juegos para crear nuevo contenido), están clonando sus voces con inteligencia artificial para dar mayor realismo a esos nuevos niveles, personajes o historias.

En ese sentido, HoYoverse, uno de las desarrolladores de videojuegos más grandes de China, creadores del altamente popular Genshin Impact, usó en 2022 la clonación para reemplazar con inteligencia artificial la voz de una vocalista en un nuevo evento de un juego, ya que la actriz original no estaba disponible para trabajar.

Por si fuera poco, uno de los motivos de la huelga de actores en EEUU es el temor a las inteligencias artificiales generativas, por ejemplo por la posibilidad de recrear su rostro, imagen o voz y dejar de depender de ellos con tanta regularidad. Por ejemplo, se sabe que los estudios de Hollywood ya estaban sugiriendo clonar a los extras y su fisionomia por algo más de 200$ el extra, y a perpetuidad, para poder incluirlos en las películas que hicieran falta sin tener que contratarlos.

En resumen, que el reciente capítulo de la sexta temporada de Black Mirror, «Joan is awful», ya no es tan ciencia ficción como podía parecer…

De acuerdo, parece que esto es más real de lo que parecía, pero desde la perspectiva de la protección de datos personales, que es desde donde vamos a analizar el supuesto, ¿puedo clonar una voz mediante inteligencia artificial?

Veamos las posibilidades.

Dato personal y biométrico

Para empezar, ¿qué es la voz desde la perspectiva de la protección de datos? Es un dato de carácter personal de acuerdo a numerosas resoluciones e informes de la Agencia Española de Protección de Datos.

El Tribunal Constitucional vino a decir lo mismo en el año 2000 al considerar que instalar micrófonos en determinadas dependencias de un casino con la finalidad de aumentar la seguridad, suponía «una intromisión ilegítima en el derecho a la intimidad consagrado en el art. 18.1 CE, pues no existe argumento definitivo que autorice a la empresa a escuchar y grabar las conversaciones privadas que los trabajadores del casino mantengan entre sí o con los clientes».

También el Tribunal Supremo se ha pronunciado, concretamente en 2020, indicando que la voz será un dato personal si está asociada a otro dato (un teléfono, por ejemplo) o es «puesta a disposición de otras personas que pueden identificar a quién pertenece».

Por tanto, si bien podría haber casos extremos en los que la voz no fuera un dato personal (por ejemplo, un audio breve de mala calidad, sin metadatos y sin pista alguna en las palabras pronunciadas), lo mejor es considerar que en la mayoría de supuestos lo es.

Aclarado eso, hay que resaltar que la voz no es un dato personal cualquiera, ya que en principio será un dato de tipo biométrico ya que hace referencia a «las características físicas, fisiológicas o conductuales de una persona física que permitan o confirmen la identificación única de dicha persona», según el artículo 4.14 RGPD.

Ahora bien, aquí hay bastantes más matices a realizar.

Como bien explica Janvier Parewyck, una cosa es el habla (en la que por ejemplo alguien podría identificarse al iniciar un discurso, lo que obviamente convertiría a ese dato en personal) y otra la voz como tal (que no dejan de ser los sonidos que los humanos reproducimos, pero que no tienen porqué incluir el habla o la expresión).

Un grito será obviamente una voz, pero muchas veces no formaría parte del habla.

Uno de los elementos que sugiere la necesidad de entender la voz como un dato biométrico es que la misma puede identificar a una persona de forma individual (especialmente en el caso de voces características), pero también puede dar a conocer su origen étnico y localización por el acento, su estado de ánimo o incluso una enfermedad.

Pero es cierto que dependerá mucho del audio y la voz que en el mismo pueda escucharse, hablar o no de dato biométrico y por tanto de un dato de categoría especial.

En ese sentido, otro elemento importante es el Considerando 51 del RGPD, ya que señala que un dato potencialmente biométrico no siempre será de categoría especial, dependiendo en realidad de la finalidad:

«El tratamiento de fotografías no debe considerarse sistemáticamente tratamiento de categorías especiales de datos personales, pues únicamente se encuentran comprendidas en la definición de datos biométricos cuando el hecho de ser tratadas con medios técnicos específicos permita la identificación o la autenticación unívocas de una persona física«.

En el mismo sentido se pronuncian las Directrices 2/2021 sobre los asistentes de voz virtuales del EDPB, en su página 25:

«El RGPD considera que la mera naturaleza de los datos no siempre es suficiente para determinar si estos reúnen los requisitos para ser considerados categorías especiales de datos ya que «el tratamiento de fotografías […] únicamente se encuentran comprendidas en la definición de datos biométricos cuando el hecho de ser tratadas con medios técnicos específicos permita la identificación o la autenticación unívocas de una persona física» (considerando 51). El mismo razonamiento se aplica a la voz.»

Es decir, que si alguien dice en un audio que va en silla de ruedas debido a una enfermedad, no significa que debamos tratar automáticamente ese dato como un dato biométrico y de categoría especial ya que la finalidad (presente o futura) al recoger ese audio quizá no era revelar, deducir o extraer esa particularidad que sí podría convertir al dato en especial.

La página 18 de las Directrices 3/2019 sobre el tratamiento de datos personales mediante dispositivos de vídeo del EDPB tienen más ejemplos en ese sentido.

Por tanto, ¿será la voz siempre un dato personal? En la mayoría de casos.

¿Será también un dato de categoría especial al consistir en un dato biométrico dirigido a identificar de manera unívoca a una persona física? Dependerá especialmente de la finalidad que demos a esa voz, y de los elementos que la compongan y puedan facilitar o no la identificación de la persona.

Como último apunte, la distinción que la AEPD venía haciendo desde hace un tiempo entre identificación y autenticación a efectos de determinar o no el carácter biométrico de un dato, se ha saldado con un claro «Es indiferente» según las Directrices 05/2022 sobre el uso de tecnología para reconocimiento facial por los cuerpos y fuerzas de seguridad del EDPB.

Según su Considerando 12: “Aunque ambas funciones -autenticación e identificación- son distintas, las dos se refieren al tratamiento de datos biométricos relacionados con una persona física identificada o identificable y, por lo tanto constituyen un tratamiento de datos personales, y más concretamente un tratamiento de categorías especiales de datos personales”.

Por tanto, a la hora de determinar la finalidad de la voz la diferencia entre identificación y autenticación pierde la importancia que le daba la AEDP.

Dicho esto, ¿a qué escenarios podríamos hacer frente al clonar una voz con inteligencia artificial y cuál sería la base legal más adecuada?

Escenarios y bases legales

1.- Clonar la propia voz

Empecemos por lo fácil :p

Clono mi propia voz para experimentar con ello. Seguramente es donde menos dolores de cabeza podemos tener: excepción doméstica del art. 2.2 c) RGPD y adelante.

Sí habría que tener en cuenta, que a menos que hayamos desarrollado nosotros el software que hace la clonación, la herramienta de tercero que usemos sí tiene obligaciones legales respecto a nosotros y por nuestro lado podremos ejercer los correspondientes derechos.

2.- Clonar la voz de terceros

Aquí pueden darse diferentes posibilidades:

A) Amigos, conocidos o familiares

En muchos casos seguramente podríamos estar ante un nuevo supuesto de excepción doméstica del art. 2.2 c) RGPD. Por ejemplo, clonar la voz de mi sobrino, un amigo o mi hermano para hacerle hablar Klingon o como Homer Simpson pero con su tono de voz.

Nuevamente hay que tener en cuenta los derechos propios y de terceros respecto al servicio usado para clonar la voz mediante inteligencia artificial.

Pero podría ser un caso más serio (por ejemplo, un mod para el videojuego Skyrim que publico online, que dobla un amigo en castellano y que se doblará al inglés artificialmente). Ahí tendría mucho sentido requerir el consentimiento de esa persona.

En este escenario también podríamos acabar con la clonación de la voz mediante inteligencia artificial de una persona fallecida (no tan de ficción como parece). Eso está excluido del ámbito de la protección de datos, pero la Ley Orgánica 3/2018, de 5 de diciembre, de Protección de Datos Personales y garantía de los derechos digitales, artículo 3.1, sí contempla que por parte de las personas vinculadas al fallecido se pueda acceder a los datos que pudiera tratar un responsable. Y ahí podríamos estar hablando de audios o vídeos con voz de una red social que quieran usarse para su clonación.

B) Colaboradores, proveedores o clientes (relación mercantil)

Aquí estaríamos hablando de alguno de los escenarios comentados al inicio: actores de doblaje de todo tipo (series, películas, videojuegos, documentales, vídeos explicativos, audioguías, etc), cantantes, voces para anuncios, trailers, gestión de eventos, conciertos, entre otras.

Lo normal será tener contrato regulando la prestación del servicio, por ejemplo doblar una serie. Luego, según la finalidad para la que queramos tratar la clonación de la voz en particular (por ejemplo, el doblaje a otros idiomas con el mismo tono, para un contenido de carácter global y en un margen de tiempo breve) ya es cuando deberíamos analizar la base legal a aplicar.

La base legal contractual podría ser una, sin olvidar los límites que ha establecido la autoridad irlandesa en la sanción a Meta por usar la base contractual para publicidad comportamental, de enero de 2023.

El interés legítimo, con la opción de oponerse, podría ser otra opción. Aunque sin olvidar que quizá hay alternativas más proporcionales (voces enlatadas o actores locales, por ejemplo).

Finalmente, quizá la más «sencilla» y menos problemática base legal sería el consentimiento expreso o explícito, según el caso, de la persona contratada.

En los anteriores casos, y para los supuestos en los que la voz sea un dato de categoría especial, tener en cuenta la particularidad del artículo 9.2 e) RGPD cuando dice que no estaría prohibido el tratamiento referido a datos personales que el interesado ha hecho «manifiestamente públicos». ¿Los cantantes y actores podrían tener un problema con este apartado?

Todo ello sin olvidar lo previsto en el artículo 7.6 de Ley Orgánica 1/1982, de 5 de mayo, de protección civil del derecho al honor, a la intimidad personal y familiar y a la propia imagen, según la cuál: «Tendrán la consideración de intromisiones ilegítimas en el ámbito de protección delimitado por el artículo segundo de esta Ley: La utilización del nombre, de la voz o de la imagen de una persona para fines publicitarios, comerciales o de naturaleza análoga

C) Empleados (relación laboral)

Finalmente, el escenario relativo a los empleados es donde parece más difícil poder justificar una base legal que no sea un consentimiento expreso o explícito.

Y obviamente podría afectar a cualquier de los perfiles mencionados anteriormente, solo que cambia la relación de mercantil a laboral.

En resumen: una de las muchas variantes de la inteligencia artificial es cómo permite ya reproducir de forma muy verosímil algunas de nuestras características más únicas, el rostro, los ojos, formas de moverse o la voz.

Si eso ocurre y quiero clonar la voz de alguien mediante inteligencia artificial, desde la perspectiva de la protección de datos debo recordar que será casi siempre un dato personal. Además, puede también ser un dato de categoría especial por ser biométrico, aunque en ese caso será importante la finalidad que demos a ese tratamiento.

Finalmente, según el escenario en el que se produzca esa «clonación», doméstico, mercantil o laboral, la base legal que deberé tenerse en cuenta para tratar ese dato de forma correcta puede cambiar bastante.

Una más de esas cuestiones vinculada a la inteligencia artificial que parece muy lejana pero que en realidad ya está muy presente.

¡Ojo con los copiones de voz! :p