FramePack face ca difuzarea video de înaltă calitate să fie surprinzător de ușoară
Pe scurt: Generarea video AI nu mai poate fi limitată la abonamente scumpe sau servere de mare putere. Datorită unei descoperiri recente, chiar și un laptop pentru jocuri ar putea genera videoclipuri AI de lungă durată.
Descoperirea provine de la Lvmin Zhang din Github și Maneesh Agrawala de la Universitatea Stanford. Duo-ul a dezvoltat FramePack, o arhitectură de rețea neuronală care permite difuzarea video de înaltă calitate, cu doar 6 GB de VRAM. Aceasta este o realizare semnificativă, în special având în vedere dimensiunea modelului-13 miliarde de parametri-ceea ce îi permite să genereze clipuri complete de 60 de secunde la 30 fps folosind doar un GPU de gamă medie.
Cheia constă în modul în care funcționează FramePack. Modelele tradiționale de difuzie video se bazează pe cadre generate anterior pentru a prezice următorul. Pe măsură ce lungimea videoclipului crește, la fel și „contextul temporal” – numărul de cadre anterioare pe care trebuie să le ia în considerare modelul – rezultând cereri mai mari de memorie. Acesta este motivul pentru care majoritatea modelelor necesită 12 GB de VRAM sau mai mult pentru a rula eficient.

Framepack aruncă asta pe cap. În loc să lase balonul de utilizare a memoriei cu clipuri mai lungi, comprimă cadre de intrare bazate pe importanță într-un context de lungime fixă, păstrând amprenta memoriei compactă și consecventă, indiferent de durata video.
Această inovație permite modelului să proceseze mii de cadre, chiar și cu arhitecturi mari, pe GPU-uri de calitate laptop. De asemenea, permite instruirea cu dimensiuni de lot comparabile cu cele utilizate în modelele de difuzie a imaginilor.
Dar FramePack nu reduce doar cerințele de memorie, ci abordează și derivă – o problemă comună în care calitatea video se degradează în timp. Prin utilizarea modelelor inteligente de compresie și a tehnicilor de planificare, FramePack ajută la menținerea consistenței vizuale de la început până la sfârșit.
Pentru a-l încheia, modelul include o GUI ușor de utilizat. Utilizatorii pot încărca imagini, pot introduce prompturi de text și pot vizualiza o previzualizare live pe măsură ce sunt generate cadre. Pe un RTX 4090, viteza de generare optimizată ajung până la 0,6 cadre pe secundă. Desigur, performanța este mai mică pe GPU -uri mai puțin puternice, dar chiar și un RTX 3060 îl poate gestiona.
În prezent, FramePack acceptă NVIDIA RTX 30, 40 și noua GPU din seria 50, cu condiția să accepte formate de date FP16 sau BF16. Încă nu există suport confirmat pentru GPU -urile AMD sau Intel, dar modelul funcționează pe mai multe sisteme de operare, inclusiv Linux.
Puteți găsi detalii complete ale modelului și cod sursă pe GitHub.
