A “google” chinesa, Baidu, acaba de lançar um documento que mostra o o seu mais atual desenvolvimento em Inteligência Artificial (IA): um programa que pode clonar vozes depois de analisar até um clip de segundos de duração, utilizando uma rede neural.
Não só o programa informático é capaz de imitar uma voz, como pode alterá-la para refletir outro género ou mesmo um sotaque diferente. Pode ouvir alguns dos exemplos gerados aqui, alojados no GitHub.
As iterações anteriores desta tecnologia permitiram a clonagem de voz depois dos sistemas analisarem amostras de voz mais longas . Em 2017, a equipa de investigação Baidu Deep Voice introduziu tecnologia que podia clonar vozes com 30 minutos de material de treino.
A Adobe tem um programa denominado VoCo que pode imitar uma voz com simplesmente 20 minutos de áudio. Uma inicialização canadiana, chamada Lyrebird, pode clonar uma voz com simplesmente um minuto de áudio.
A inovação do Baidu diminuiu ainda mais esse tempo para poucos segundos. Enquanto no início isso pode parecer uma atualização de tecnologia que tornou-se popular nos anos 90, com a ajuda de “Home Alone 2” e “Scream”, existem realmente algumas aplicações nobres para essa tecnologia.
Por exemplo: imagine o o seu filho ouvir uma história contada com a a sua voz, enquanto está longe, ou ter uma voz duplicada criada para um individuo que não é capaz de falar.
Esta tecnologia também pode ser usada para criar assistentes digitais personalizados e serviços de tradução de voz mais naturais. Porém, como em muitas tecnologias, a clonagem de voz também vem com o perigo de ser abusada, ou apenas mal usada.
A New Scientist informa que o programa foi capaz de gerar uma voz que enganou o programa informático de identificação de voz com uma precisão de acima de 95% nos testes. Os seres humanos até avaliaram a voz clonada com uma pontuação de 3.16 em 4. Isso podia abrir a oportunidade de falcatrua assistida por IA .
Existem programas que podem utilizar a IA para substituir ou alterar – e até mesmo gerar a partir do zero – os rostos dos indivíduos em vídeos . Neste momento, isso é sobretudo usado na internet para trazer gargalhados aos utilizadores ao inserir Nicolas Cage na série Senhor dos Anéis.
Mas, com a tecnologia que pode clonar vozes, em breve podemos ser bombardeadas com mais “informações falsas” de políticos a fazer ou dizer coisas que na verdade não fizeram.
Já é muito fácil enganar pessoas utilizando simplesmente a palavra escrita ou ferramentas como o Photoshop. Se tecnologias como esta da Baidu forem colocadas nas mãos erradas, pode haver ainda mais problemas.
Fonte: ZAP