Uma das maneiras mais simples, e também mais correta, de classificar uma canção como explícita ou não é avaliar se ela possui linguagem pesada (palavrões, menciona violência, uso/nome de drogas, entre outros). Mas o que fazer se você não tem acesso às letras das músicas? Isso pode se tornar um trabalho demorado e exaustivo. Pensando em maneiras de facilitar esse processo, a Deezer desenvolveu o Keyword Spotting System, ferramenta que utiliza Inteligência Artificial e machine learning para identificar palavras-chaves explícitas, e também o momento em que aparecem, a partir do vocal de uma música, conseguindo fazer uma classificação automatizada.

Para alcançar esse resultado, a Deezer integrou o Keyword Spotting System à uma outra ferramenta desenvolvida, o Spleeter, que consegue separar cada parte presente em uma músical – vocal, bateria, guitarra, entre outros. Além disso, a streamer também treinou o Keyword Spotting System em relação a diferentes tipos de músicas e ao seu conteúdo, de forma a obter uma ferramenta bem balanceada. O sistema, apesar dos ótimos resultados obtidos, ainda necessita de uma análise humana, porém serve como um grande facilitador no processo de categorização de músicas a partir do vocal.

“Quando se trata de descobrir o que são letras explícitas, não há consenso geral. Obviamente, é uma questão cultural, com muitas considerações sobre o público-alvo e o contexto de escuta. Como é o caso dos filmes, o objetivo principal de marcar uma peça como “explícita” é fornecer orientações para determinar o quão adequado é para o público-alvo. Isso geralmente é chamado de “aconselhamento dos pais” porque o público em mente é principalmente de crianças,” diz Manuel Moussallam, head de P&D em comunicado.

O head explica que como são humanos que, até então, trabalham para definir se uma música possui conteúdo explícito ou não, e, ainda trabalham de acordo com diretrizes internas estabelecidas pela empresa, as músicas são entregues a serviços de streaming como o Deezer, às vezes acompanhadas pela tag “explícita”, e às vezes não. “Quando nenhuma tag é fornecida, pode significar que a música é adequada para todos os públicos, mas também pode significar que nenhuma decisão foi tomada do lado da gravadora em relação à sua explicitação . Há uma parte substancialmente grande de nosso catálogo que se enquadra nessa categoria”.

O objetivo do então então, segundo os pesquisadores, é analisar como músicas, letras e humores se correlacionam, além de trabalhar a possibilidade de ter modelos de aprendizado capazes de classificar e localizar dados não rotulados em massa.

Para informações mais detalhadas sobre o processo de criação da ferramenta, acesse o artigo de Moussallam no link