Ainda não é possível testar o Fugatto publicamente, mas um site recheado de amostras demonstra como ele pode ajustar uma variedade de características sonoras. Os resultados são impressionantes, permitindo desde o som de saxofones “latindo” até pessoas falando debaixo d’água, ou até mesmo sirenes de ambulância cantando em forma de coro. Embora a qualidade dessas criações varie, a ampla gama de possibilidades apresenta o Fugatto como uma verdadeira “faca suíça para o som”, conforme descrito pela Nvidia.
Entretanto, criar um modelo tão inovador não é uma tarefa simples. Um estudo explicativo elaborado por mais de uma dúzia de pesquisadores da Nvidia esclarece que um dos maiores desafios é construir um conjunto de dados de treinamento que consiga “revelar relações significativas entre áudio e linguagem”. Enquanto modelos de linguagem padrão conseguem muitas vezes interpretar instruções a partir de dados textuais, é mais complicado generalizar descrições e características de áudios sem uma orientação mais clara.
O Fugatto representa um passo emocionante na intersecção entre linguagem e som, mostrando que, com as ferramentas certas, o potencial criativo da inteligência artificial pode ser praticamente ilimitado. A tecnologia continua a abrir novas portas, e a forma como interagimos com o som pode estar prestes a mudar radicalmente.
Redação Confraria Tech.
Referências:
Nvidia’s new AI audio model can synthesize sounds that have never existed
