Biometría de voz y señales sintéticas: por qué ya no podemos confiar ciegamente en las máquinas

Resumen

En muy pocos años, las voces generadas mediante inteligencia artificial han dejado de ser una curiosidad para convertirse en un desafío serio en ámbitos tan sensibles como las estafas, la suplantación de identidad o los procedimientos judiciales. Ya en 2021, Nautsch y su equipo advertían que los sistemas de síntesis estaban alcanzando un nivel de realismo difícil de distinguir del habla humana. Desde mi trabajo en fonética forense, he podido comprobar cómo esta evolución afecta de lleno a los sistemas automáticos de verificación de locutor.

1. Un escenario que ha cambiado sin que nos demos cuenta

Durante décadas, la identificación de hablantes se apoyó en dos pilares: el análisis experto y los sistemas automáticos. Ese equilibrio funcionó mientras la voz humana era, por definición, humana. Pero hoy convivimos con tecnologías capaces de imitar timbres, ritmos y patrones articulatorios con una precisión que hace apenas unos años habría parecido ciencia ficción. Modelos como Tacotron, VITS o Vall‑E —analizados en profundidad por Kinnunen y otros investigadores— pueden generar voces que engañan incluso a sistemas avanzados de reconocimiento.

Esto nos obliga a replantear una cuestión que antes parecía obvia: ¿qué ocurre cuando intentamos comparar una voz humana con una señal que no lo es?

2. Cómo “razonan” realmente los sistemas biométricos

Los sistemas automáticos no escuchan: procesan. No interpretan intención, ni emoción, ni naturalidad. Como explicaban Kinnunen y Li hace más de una década, estos algoritmos transforman la señal acústica en representaciones matemáticas de la vibración glotal, las resonancias o la prosodia.

El problema es que fueron diseñados bajo un supuesto que hoy ya no podemos dar por garantizado: que la señal de entrada procede de un aparato fonador humano. Cuando no es así, el sistema deja de medir identidad vocal y empieza a medir artefactos digitales, patrones estadísticos o características que nada tienen que ver con la fisiología.

3. Por qué fallan ante voces sintéticas o manipuladas

3.1. Las voces artificiales ya imitan demasiado bien

Investigaciones recientes —como las de Kinnunen en 2020— muestran que muchos sistemas automáticos aceptan voces sintéticas como si fueran reales, incluso cuando la calidad de la síntesis no es especialmente alta.

3.2. Los filtros distorsionan la huella vocal

G. Morrison lleva años señalando que cualquier manipulación digital —desde un simple pitch‑shift hasta una compresión agresiva— altera parámetros esenciales. En esas condiciones, el sistema ya no compara voces: compara efectos.

3.3. No detectan manipulación

Las recomendaciones de la AES (2023) son contundentes: si existe sospecha de edición, mezcla o inserciones sintéticas, la biometría no debe emplearse. Los sistemas automáticos no verifican integridad, no detectan cortes y no distinguen entre voz humana y voz generada por IA.

4. Qué dice la comunidad científica

El diagnóstico es prácticamente unánime: los sistemas automáticos son vulnerables al spoofing y a los deepfakes. Esto ha sido demostrado por equipos como los de Todisco, Alegre, Evans, Yamagishi, Nautsch y muchos otros. El consenso es amplio y está sólidamente documentado.

5. ¿Qué hacemos entonces en fonética forense?

5.1. Volver a los fundamentos

Autores como Morrison, Rose o Zhang recuerdan que la biometría solo es válida cuando la muestra es humana, íntegra y comparable. Si la señal dubitada es sintética o ha sido filtrada, esos requisitos dejan de cumplirse.

5.2. El análisis humano sigue siendo insustituible

Como señala Peter Rose, hay aspectos de la voz que únicamente un oído entrenado puede interpretar:

coarticulación natural frente a coarticulación artificial,
respiración coherente con la producción real,
microvariaciones prosódicas imposibles de sintetizar de forma estable,
transiciones incompatibles con un tracto vocal humano,
incoherencias dialectales o sociolingüísticas.

La voz humana tiene irregularidades. La voz sintética, por definición, no.

6. Implicaciones jurídicas

Aplicar biometría a señales sintéticas puede generar falsos positivos, conclusiones no reproducibles y vulnerar estándares como Daubert o Frye. Los tribunales requieren métodos explicables y transparentes, y la biometría deja de serlo cuando la señal no es humana.

7. Conclusión

La evidencia científica y la práctica forense coinciden: la biometría de voz no es fiable cuando la señal ha sido generada o alterada mediante IA. En estos casos, el análisis fonético‑perceptual humano, junto con la verificación de integridad del audio, continúa siendo la herramienta más sólida, prudente y metodológicamente responsable.