„Conținutul nostru este gratuit, infrastructura noastră nu este”
Redactor de luare: BOT -urile AI au devenit recent flagelul site -urilor web care se ocupă de conținut scris sau de alte tipuri de media. De la Wikipedia până la umilul blog personal, nimeni nu este în siguranță de sledgehammer -ul de rețea, purtat de OpenAI și alți giganți tehnologici în căutarea de conținut proaspăt pentru a -și hrăni modelele AI.
Fundația Wikimedia, organizația nonprofit care găzduiește Wikipedia și alte site -uri web pe scară largă, ridică îngrijorări cu privire la roboții de raclet AI și impactul lor asupra lățimii de bandă a fundației. Cererea de conținut găzduită pe serverele Wikimedia a crescut semnificativ de la începutul anului 2024, companiile AI consumând activ o cantitate copleșitoare de trafic pentru a -și antrena produsele.
Proiectele Wikimedia, care includ unele dintre cele mai mari colecții de cunoștințe și media accesibilă liber pe internet, sunt utilizate de miliarde de oameni din întreaga lume. Wikimedia Commons găzduiește doar 144 de milioane de imagini, videoclipuri și alte fișiere partajate sub licență de domeniu public și suferă în special de activitatea de târâre nereglementată a Bots AI.
Fundația Wikimedia a înregistrat o creștere de 50 la sută a lățimii de bandă utilizate pentru descărcări multimedia din ianuarie 2024, traficul provenind preponderent de la roboți. Programele automate războiesc catalogul de imagini Wikimedia Commons pentru a alimenta conținutul modelelor AI, afirmă fundația, iar infrastructura nu este construită pentru a suporta acest tip de trafic parazitar pe internet.

Echipa Wikimedia a avut dovezi clare cu privire la efectele răzuirii AI în decembrie 2024, când fostul președinte al SUA Jimmy Carter a murit, iar milioane de spectatori au accesat pagina sa la ediția engleză a Wikipedia. Cele 2,8 milioane de oameni care citeau bio și realizările președintelui au fost „gestionabile”, a spus echipa, dar mulți utilizatori au transmis și videoclipul lung de 1,5 ore din dezbaterea lui Carter din 1980 cu Ronald Reagan.
Ca urmare a dublării traficului normal de rețea, un număr mic de rute de conectare ale Wikipedia către Internet au fost congestionate pentru aproximativ o oră. Echipa de fiabilitate a site -ului Wikimedia a fost capabilă să redirecționeze traficul și să restaureze accesul, dar sughițul de rețea nu ar fi trebuit să se întâmple în primul rând.
Examinând problema lățimii de bandă în timpul unei migrații a sistemului, Wikimedia a constatat că cel puțin 65 la sută din cel mai intensiv trafic cu resurse proveneau de la roboți, trecând prin infrastructura de cache și afectează direct centrul de date „de bază” al Wikimedia.
Organizația lucrează pentru a aborda acest nou tip de provocare a rețelei, care afectează acum întregul internet, deoarece companiile AI și tehnologice războin în mod activ fiecare uncie de conținut făcut de om pe care îl pot găsi. „Oferirea de conținut de încredere înseamnă, de asemenea, susținerea unui model de„ cunoștințe ca serviciu ”, unde recunoaștem că întregul internet se bazează pe conținutul Wikimedia”, a spus organizația.
Wikimedia promovează o abordare mai responsabilă a accesului la infrastructură prin o mai bună coordonare cu dezvoltatorii AI. API -urile dedicate ar putea ușura sarcina lățimii de bandă, facilitând identificarea și lupta împotriva „actorilor răi” din industria AI.
