Nvidia revela ‘canivete suíço’ de ferramentas de áudio de IA: Fugatto

A fabricante de chips de computador de alta potência Nvidia revelou na segunda-feira um novo modelo de IA desenvolvido por seus pesquisadores que pode gerar ou transformar qualquer mistura de música, vozes e sons descritos com prompts usando qualquer combinação de arquivos de texto e áudio.

O novo modelo de IA chamado Fugatto – para Foundational Generative Audio Transformer Opus – pode criar um trecho de música com base em um prompt de texto, remover ou adicionar instrumentos de uma música existente, alterar o sotaque ou a emoção em uma voz e até mesmo produzir sons nunca ouvidos antes.

De acordo com a Nvidia, ao suportar inúmeras tarefas de geração e transformação de áudio, o Fugatto é o primeiro modelo de IA generativa fundamental que apresenta propriedades emergentes – recursos que surgem da interação de suas várias habilidades treinadas – e a capacidade de combinar instruções de forma livre.

“Queríamos criar um modelo que entendesse e gerasse som como os humanos”, disse Rafael Valle, gerente de pesquisa de áudio aplicada da Nvidia, em um comunicado.

“O Fugatto é o nosso primeiro passo em direção a um futuro em que o aprendizado multitarefa não supervisionado na síntese e transformação de áudio emerge da escala de dados e modelos”, acrescentou.

A Nvidia observou que o modelo é capaz de lidar com tarefas para as quais não foi pré-treinado, além de gerar sons que mudam com o tempo, como o efeito Doppler do trovão quando uma tempestade passa por uma área.

A empresa acrescentou que, ao contrário da maioria dos modelos, que só podem recriar os dados de treinamento aos quais foram expostos, o Fugatto permite que os usuários criem paisagens sonoras nunca vistas antes, como uma tempestade chegando ao amanhecer com o som de pássaros cantando.

Modelo de IA inovador para transformação de áudio

“A introdução do Fugatto pela Nvidia marca um avanço significativo na tecnologia de áudio orientada por IA”, observou Kaveh Vahdat, fundador e presidente da RiseOpp, uma empresa nacional de serviços CMO com sede em San Francisco.

“Ao contrário dos modelos existentes que se especializam em tarefas específicas – como composição musical, síntese de voz ou geração de efeitos sonoros – o Fugatto oferece uma estrutura unificada capaz de lidar com uma gama diversificada de funções relacionadas ao áudio”, disse ele à TechNewsWorld. “Essa versatilidade o posiciona como uma ferramenta abrangente para síntese e transformação de áudio.”

Vahdat explicou que o Fugatto se distingue por sua capacidade de gerar e transformar áudio com base em instruções de texto e entradas de áudio opcionais. “Essa abordagem de entrada dupla permite que os usuários criem saídas de áudio complexas que combinam perfeitamente vários elementos, como combinar a melodia de um saxofone com o timbre de um gato miando”, disse ele.

Além disso, ele continuou, a capacidade do Fugatto de interpolar entre as instruções permite um controle diferenciado sobre atributos como sotaque e emoção na síntese de voz, oferecendo um nível de personalização não comumente encontrado nas ferramentas de áudio de IA atuais.

“O Fugatto é um passo extraordinário em direção à IA que pode lidar com várias modalidades simultaneamente”, acrescentou Benjamin Lee, professor de engenharia da Universidade da Pensilvânia.

“Usar entradas de texto e áudio juntas pode produzir modelos muito mais eficientes ou eficazes do que usar apenas texto”, disse ele à TechNewsWorld. “A tecnologia é interessante porque, olhando além do texto, amplia os volumes de dados de treinamento e os recursos dos modelos generativos de IA.”

Share Article:

hudsonpires.c@gmail.com

Writer & Blogger

Considered an invitation do introduced sufficient understood instrument it. Of decisively friendship in as collecting at. No affixed be husband ye females brother garrets proceed. Least child who seven happy yet balls young. Discovery sweetness principle discourse shameless bed one excellent. Sentiments of surrounded friendship dispatched connection is he. Me or produce besides hastily up as pleased. 

Leave a Reply

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Lillian Morgan

Endeavor bachelor but add eat pleasure doubtful sociable. Age forming covered you entered the examine. Blessing scarcely confined her contempt wondered shy.

Follow On Instagram

Dream Life in Paris

Questions explained agreeable preferred strangers too him her son. Set put shyness offices his females him distant.

Join the family!

Sign up for a Newsletter.

You have been successfully Subscribed! Ops! Something went wrong, please try again.

Tags

    Edit Template