Pesquisadores da University College London usaram um algoritmo de conversão de texto em fala treinado em dois conjuntos de dados disponíveis publicamente, um em inglês e outro em mandarim, para gerar 50 amostras de fala deepfake em cada idioma.
PUBLICIDADE
Deepfakes, uma forma de inteligência artificial generativa, são mídias sintéticas criadas para se assemelhar à voz de uma pessoa real ou à semelhança de sua aparência. ⤵️
As amostras de som foram tocadas para 529 participantes, que tinham que tentar distinguir a amostra real da fala falsa. Os participantes foram capazes de identificar a fala falsa apenas 73% das vezes. Esse número melhorou ligeiramente depois que eles receberam treinamento para reconhecer aspectos da fala deepfake.
O estudo é o primeiro a avaliar a capacidade humana de detectar a fala gerada artificialmente em um idioma diferente do inglês. Ele discorre sobre as preocupações de que os humanos são incapazes de detectar consistentemente quando um áudio é um deepfake, apesar de serem treinados para isso.
PUBLICIDADE
Kimberly Mai, uma das autoras do estudo, disse: “Em nosso estudo, mostramos que treinar pessoas para detectar deepfakes não é necessariamente uma maneira confiável de ajudá-las a melhorar. Infelizmente, nossos experimentos também mostram que, no momento, os detectores automatizados também não são confiáveis.
Segundo Mai, seria importante melhorar os detectores de fala deepfake automatizados e que as organizações “pensassem em estratégias para mitigar a ameaça que o conteúdo deepfake representa”.
Leia também: