Há poucos dias, o Facebook anunciou que pretende retirar os vídeos de deepfake da plataforma, em virtude das eleições presidenciais que acontecerão no país neste ano. Com a crescente utilização das deepfakes – vídeos realistas, mas falsos, em que se sobrepõe o rosto de uma pessoa sobre um conteúdo original -, a preocupação é de que notícias falsas se proliferem ainda mais rápido e de forma mais profunda, atrapalhando o processo democrático.

Mas o que são as deepfakes? De onde surgiu este termo e quais os benefícios e perigos do uso desta tecnologia? Para falar sobre isso, o cientista de dados José Ahirton Batista Lopes Filho bateu um papo com o STARTUPI e explicou sobre o tema que tem dado o que falar nas redes sociais.

Origem

A primeira aplicação em visão computacional tida como um deepfake (palavra derivada de “deep learning” e “fake“, em inglês) foi o “Video Rewrite Program”, de 1997, que modificava imagens de vídeo pré-existentes de uma pessoa falando, mas representando o personagem pronunciando palavras contidas em uma faixa de áudio diferente. “Foi o primeiro sistema a automatizar totalmente esse tipo de reanimação facial, usando técnicas de  aprendizagem de máquina para fazer conexões entre os sons produzidos e o formato do rosto da pessoa do vídeo-alvo”, diz.

José explica que, até pouco tempo atrás, gerar deepfakes era considerado difícil, exigindo conhecimento técnico e muita pesquisa, já que a geração destes vídeos falsos depende de um tipo de rede neural profunda chamada autoencoder. Essa rede é um codificador, que reduz uma imagem a um espaço latente de dimensão mais baixa, e um decodificador, que reconstrói a imagem a partir de tal representação latente desenvolvida.

“As deepfakes utilizam então essa arquitetura como tendo uma espécie de codificador universal, que codifica os atributos referentes a imagem de uma pessoa no espaço latente. Essa representação latente contém as mais variadas características sobre tal pessoa como postura corporal e, principalmente, diversas características faciais. A partir disso essa representação pode ser decodificada na forma de um modelo treinado, comumente feito de maneira específica para um alvo em particular. Assim, acontece a sobreposição de informações do alvo em relação ao vídeo original”, afirma.

Hoje, entretanto, já existem soluções “abertas” para a construção de deepfakes tais como o Fake App e  DeepFaceLab, dentre outras ferramentas.

Como reconhecer?

José afirma que, de modo geral, assim como existem diversas maneiras de se criar diferentes deepfakes com diversos propósitos, o mesmo também acontece quando se avalia a qualidade destes materias. Ele diz que a maioria ainda é composta por trabalhos amadores, e há alguns pontos que deve ser observados com atenção para identificar a veracidade ou falsidade do conteúdo:

– Os olhos: Os olhos humanos piscam com frequência. Em um diálogo, tendemos sempre a olhar para o interlocutor. Em deepfakes, o movimento dos olhos costuma variar e não parecer natural.

– Fios de cabelo e dentes: Dentes e fios de cabelo, na natureza, tendem a ter formatos singulares. Logo, para saber se um vídeo é verdadeiro, verifique se os dentes e cabelos de uma determinada pessoa em vídeo parecem ter realmente características únicas (no caso de cabelos, a presença de fios individuais ou “frizz“, por exemplo) ou se foram criados de maneira mais generalista.

– Proporções: A partir dos movimentos no vídeo, é possível notar algumas particularidades nos rostos dos personagens, principalmente aqueles gerados por meio de apps mais simples de “troca de faces” (face swap). Geralmente o formato da testa ou a proporção do corpo não ficam naturais. Também há mudanças na cor da pele e nas luzes da cena.

– Emoção: A maioria dos deepfakes são feitos tendo em vista a geração de uma carga emocional em quem os vê. “Logo, é bom que quando expostos a conteúdo desse tipo tenhamos calma para verificar os outros pontos já vistos antes de um possível compartilhamento, muitos dos detalhes não são notados de primeira, ainda mais de tais vídeos forem vistos em telas de smartphones”, explica José. Outra dica é também checar os vídeos em resoluções maiores, que tendem a exarcebar as falhas que, em telas menores, podem passar despercebidas.

Fake news

Em abril do ano passado, um deepfake criado pelo comediante e cineasta Jordan Peele mostrava o ex-presidente americano Barack Obama aparentemente insultando Donald Trump, antes de descrever as perigosas possibilidades da tecnologia em uma espécie de anúncio de serviço público, de modo a ilustrar como as fake news podem ser usadas ​​para retratar alguém dizendo alguma coisa potencialmente danosa.

A partir disso, muito tem se discutido sobre o poder destes vídeos para disseminar conteúdo falso nas redes sociais. O especialista acredita, no entanto, que é importante compreender que o mais danoso não é o vídeo em si, mas como eles podem ser utilizados.

“Há uma provável capacidade desses vídeos de serem divulgados em momentos cruciais, como no mesmo dia ou dia anterior a um pleito eleitoral, tendo em vista que, mesmo que a maioria dos deepfakes ainda sejam perceptíveis, eles podem capilarizar a partir da crescente da chamada ‘cultura de desconfiança’ em uma sociedade cada vez mais polarizada.”

Benefícios

Como tudo na vida, as deepfakes também têm um lado bom. Além dos já mencionados riscos desta tecnologia, há também utilizações que podem ser benéficas para os usuários. Mais recentemente, um avanço bastante popular tem sido a utilização de Redes Generativas Adversariais (no inglês, Generative Adversarial Networks – GANs) junto ao decodificador. Essa rede neural cria novas imagens a partir da representação latente do material de origem, enquanto um discriminador tenta determinar se a imagem foi ou não gerada de maneira artificial (via GAN).

“Isso faz com que o gerador crie imagens que imitam a realidade de forma extremamente satisfatória, pois qualquer problema em tese deveria ser detectado pelo discriminador. Assim, aos poucos, vamos explorando novas possibilidades como a utilização dessas técnicas para criação de datasets de forma cada vez mais automatizada e até mesmo em aplicações mais criativas, como a remoção ou adição de novas características em vídeos e fotos, construção automatizada de novas possibilidades de design de produtos e muito mais”, explica.

Para “proteger” um conteúdo de vídeos falsos há, atualmente, pesquisas e aplicações que constroem “logs” de vídeos e imagens. Isso faz com que o conteúdo original esteja ligado a um arquivo ou em blockchain, que mostraria então qual o conteúdo original para uma checagem se passou ou não por um processo de deepfaking.

 Tendências

Para o cientista de dados, o futuro da utilização de utilização de aprendizagem profunda pode estar ligada a evoluções na utilização de aprendizagem não supervisionada. Mais especificamente, a utilização de ambientes de simulação em conjunto com tais algoritmos. “Tais simulações podem nos permitir treinar e testar nossos algoritmos com cada vez mais eficácia, tendo em vista que os modelos podem ganhar muito mais experiência no mundo virtual do que é possível, e prático, no mundo real.”