Modelul poate crea sunete care nu au mai fost auzite până acum
Perspectiv: O echipă de cercetători din întreaga lume care lucrează cu Nvidia a creat ceea ce este descris drept un cuțit elvețian pentru sunet – un model AI capabil să genereze sau să transforme practic orice mix de muzică folosind orice combinație de fișiere audio sau mesaje text.
Noul model este cunoscut sub numele de Fugatto, care este prescurtarea de la Foundational Generative Audio Transformer Opus 1. Potrivit Nvidia, capacitățile sale sunt de neegalat. De exemplu, Fugatto poate crea o melodie bazată exclusiv pe text, poate schimba emoția din vocea unui cântăreț sau poate modifica accentul și chiar poate adăuga sau elimina instrumente dintr-o melodie existentă.
Fugatto ar putea revoluționa procesul de creație muzicală. Cu el, un producător ar putea prototip rapid o idee pentru o nouă melodie completă cu stiluri de voce și instrumente personalizate sau poate ajusta efectele într-o piesă existentă.
Ido Zmishlany, un producător și compozitor multi-platină, crede că inteligența artificială și instrumente precum Fugatto vor ajuta la scrierea următorului capitol al muzicii. Acestea fiind spuse, modelul nu se limitează la producția muzicală.
Nvidia a evidențiat mai multe cazuri de utilizare alternative, cum ar fi o agenție de publicitate care o folosește pentru a modifica vocea off într-o campanie pentru a se adapta la diferite regiuni, situații sau limbi. Modelul ar putea ajuta, de asemenea, la îmbunătățirea instrumentelor de învățare a limbilor străine, permițând unui utilizator să personalizeze vocea vorbitorului, cum ar fi să sune ca un prieten sau un membru al familiei.
Dezvoltatorii de jocuri video ar putea folosi instrumentul pentru a crea materiale noi din mers pe baza intrărilor jucătorilor sau pentru a modifica materialele preînregistrate pentru a se potrivi cel mai bine nivelului de acțiune de pe ecran în orice moment.
Rafael Valle, unul dintre cercetătorii care au lucrat la proiect, a spus că au vrut să creeze un model care să înțeleagă și să genereze sunetul așa cum fac oamenii.
Mai mult de un an de muncă a fost realizat pentru a crea versiunea completă a lui Fugatto, care utilizează 2,5 miliarde de parametri. Nvidia a spus că modul a fost antrenat pe un grup de sisteme DGX alimentate de 32 de GPU-uri Nvidia H100 Tensor Core. Din păcate, o cronologie despre momentul în care Fugatto ar putea fi lansat publicului nu a fost distribuită.
