Desenvolvido por uma equipe de pesquisadores de IA de diversas partes do mundo, o Fugatto se destaca por suas capacidades multilíngues e multiacento, o que o torna ainda mais versátil. Rafael Valle, um dos responsáveis pelo projeto e gerente de pesquisa aplicada em áudio na NVIDIA, comentou: “Queríamos criar um modelo que entende e gera som como os humanos fazem.” Essa abordagem humanizada é um dos grandes diferenciais do Fugatto.
As aplicações práticas desse modelo são vastas e empolgantes. Por exemplo, produtores musicais podem utilizá-lo para gerar rapidamente protótipos de ideias para músicas, que podem ser facilmente editados para experimentar diferentes estilos, vozes e instrumentos. Além disso, pessoas que estão aprendendo idiomas podem gerar materiais de estudo na voz que preferirem, tornando o aprendizado mais dinâmico e personalizado.
Os desenvolvedores de jogos também podem se beneficiar do Fugatto, criando variações de ativos pré-gravados que se adaptam às escolhas e ações dos jogadores. Isso significa que a experiência de jogo pode se tornar ainda mais imersiva e interativa. Outro aspecto interessante é que o modelo demonstrou a capacidade de realizar tarefas que não estavam em seu treinamento inicial, desde que ajustado adequadamente. Por exemplo, ele pode combinar instruções separadas, como gerar uma fala que soe zangada com um sotaque específico ou criar o som de pássaros cantando durante uma tempestade.
O Fugatto também pode gerar sons que evoluem ao longo do tempo, como o barulho de uma chuva forte se movendo pela paisagem, trazendo uma nova dimensão à criação sonora. Embora a NVIDIA ainda não tenha anunciado se o público terá acesso ao Fugatto, é importante notar que não é a primeira tecnologia de IA generativa a criar sons a partir de textos. A Meta já lançou um kit de IA de código aberto que realiza essa tarefa, enquanto o Google possui sua própria IA de texto para música, chamada MusicLM, acessível através do site AI Test Kitchen.
Com tantas possibilidades, o Fugatto promete abrir novas portas para a criatividade sonora, tornando a produção de áudio mais acessível e inovadora. A tecnologia avança rapidamente e, com ela, as formas de expressão artística também se transformam, permitindo que todos explorem sua criatividade de maneiras antes inimagináveis.
Redação Confraria Tech.
Referências:
NVIDIA’s new AI model Fugatto can create audio from text prompts