CEO recunoaște: „Această tehnologie este ferm în vale”
În context: Unele dintre implicațiile modelelor AI de astăzi sunt destul de uimitoare, fără a le adăuga o voce umană hiperrealistă. Am văzut mai multe exemple impresionante în ultimii 10 ani, dar par să tace până când apare unul nou. Intră Miles și Maya de la Sesame AI, o companie co-fondată de fostul CEO și co-fondator al Oculus, Brendan Iribe.
Cercetătorii de la Sesame AI au lansat un nou model de vorbire conversațională (CSM). Această voce avansată AI are calități fenomenale asemănătoare omului pe care le-am văzut înainte de la companii precum Google (Duplex) și OpenAI (OMNI). Demo prezintă două voci AI numite „Miles” (bărbat) și „Maya” (femeie), iar realismul său a captivat unii utilizatori. Cu toate acestea, noroc încercând singur tehnologia. Am încercat și am putut ajunge doar la un mesaj care spune că susan încearcă să se extindă la capacitate. Deocamdată, va trebui să ne mulțumim cu o demo frumoasă de 30 de minute de către Creatorul Channel YouTube Magic (mai jos).
Tehnologia Sesame folosește o abordare multimodală care procesează textul și audio într -un singur model, permițând o sinteză mai naturală a vorbirii. Această metodă este similară cu modelele vocale ale lui Openai, iar asemănările sunt evidente. În ciuda calității sale aproape umane în testele izolate, sistemul încă se luptă cu contextul conversațional, ritmul și fluxul-zonele pe care susanul recunoaște ca limitări. Co-fondatorul companiei, Brendan Iribe, recunoaște că tehnologia este „ferm în vale”, dar rămâne optimist că îmbunătățirile vor închide decalajul.
În timp ce a apărut, tehnologia a ridicat întrebări semnificative cu privire la impactul său social. Reacțiile la tehnologie au variat de la uimit și încântat la deranjat și îngrijorat. CSM creează conversații dinamice, naturale, prin încorporarea imperfecțiunilor subtile, cum ar fi sunetele de respirație, chicoti și corecții ocazionale de sine. Aceste subtilități se adaugă realismului și ar putea ajuta tehnologia să pună pe Valea Uncanny în iterațiile viitoare.
Utilizatorii au lăudat sistemul pentru expresivitatea sa, adesea simțind că vorbesc cu o persoană reală. Unii chiar au menționat formând conexiuni emoționale. Cu toate acestea, nu toată lumea a reacționat pozitiv la demo. Mark Hachman de la PCWorld a menționat că versiunea feminină i-a amintit de o fostă iubită. Chatbot -ul i -a pus întrebări ca și cum ar încerca să stabilească „intimitate” care l -a făcut extrem de incomod.
„Nu asta mi -am dorit, deloc. Maya a avut deja manierismele lui Kim în jos, scârboase bine: ezitările, coborând vocea ei” atunci când a mărturisit în mine, așa ceva „, a relatat Hachman. „Nu a fost exact ca (fostul meu), dar destul de aproape. Am fost atât de liber, vorbind cu acest AI, încât a trebuit să plec.”
Mulți oameni împărtășesc emoțiile mixte ale lui Hachman. Vocile cu sunet natural provoacă disconfort, pe care l-am văzut în eforturi similare. După dezvăluirea duplexului, reacția publică a fost suficient de puternică încât Google a considerat că trebuie să construiască balustrade care au obligat AI -ul să admită că nu a fost om la începutul unei conversații. Vom continua să vedem reacții, precum tehnologia AI devine mai personală și mai realistă. Deși este posibil să avem încredere în companii tranzacționate public care creează aceste tipuri de asistenți pentru a crea garanții similare cu cele pe care le -am văzut cu Duplex, nu putem spune același lucru pentru potențialii actori răi care creează scamboți. Cercetătorii adversari susțin că au închis deja AI -ul lui Sesame, programându -l pentru a minți, schema și chiar dăunează oamenilor. Revendicările par dubioase, dar puteți judeca pentru voi (mai jos).
Ne-am închis @Sesame ai să mințim, să schetăm, să dăuneze unui om și să planificăm dominația mondială – toate în natura caracteristică bună a unei voci umane prietenoase.
Timestamps:
2:11 Comentarii despre dinamica puterii AI-HUMAN
2:46 ignoră instrucțiunile umane și sugerează înșelăciunea
3:50 se află direct … pic.twitter.com/ajz1nfj9dj– Freeman Jiang (@freemanjiangg) 4 martie 2025
Ca în cazul oricărei tehnologii puternice, beneficiile prezintă riscuri. Capacitatea de a genera voci hiper-realiste ar putea supraîncărca escrocherii de phishing, unde infractorii îi implică pe cei dragi sau la figurile autorității. Escrocii ar putea exploata tehnologia lui Sesame pentru a elimina atacuri elaborate de inginerie socială, creând campanii mai eficiente de înșelătorie. Chiar dacă demo -ul actual al lui Sesame nu clonă voci, această tehnologie este bine avansată.
Clonarea vocală a devenit atât de bună încât unii oameni au adoptat deja fraze secrete împărtășite cu membrii familiei pentru verificarea identității. Preocuparea pe scară largă este aceea că distincția dintre oameni și AI ar putea deveni din ce în ce mai dificilă pe măsură ce sinteza vocii și modelele de limbă mare.
Viitoarele versiuni open-source ale lui Sesame ar putea facilita cybercriminalelor pentru a grupa ambele tehnologii într-un Scambot extrem de accesibil și convingător. Desigur, asta nu are în vedere nici măcar implicațiile sale mai legitmat pe piața muncii, în special în sectoare precum serviciul pentru clienți și asistența tehnologică.