Wikipedia daje svoje podatke programerima AI da se odbrane od botova za scraping

Wikimedia je objavila da je sklopila partnerstvo s Kaggleom - platformom zajednice za nauku o podacima u vlasništvu Googlea

Redakcija
2 min čitanja
Wikipedia daje svoje podatke programerima AI da se odbrane od botova za scraping
Wikipedia daje svoje podatke programerima AI da se odbrane od botova za scraping

Wikipedia pokušava odvratiti programere umjetne inteligencije od korištenja platforme objavljivanjem skupa podataka koji je posebno optimiziran za treniranje AI modela.

Fondacija Wikimedia u srijedu je objavila da je sklopila partnerstvo s Kaggleom – platformom zajednice za nauku o podacima u vlasništvu Googlea koja hostira podatke strojnog učenja – kako bi objavila beta skup podataka “strukturiranog Wikipedijinog sadržaja na engleskom i francuskom jeziku”.

Wikimedia kaže da je skup podataka koji hostira Kaggle “dizajniran imajući na umu tokove rada strojnog učenja”, što programerima umjetne inteligencije olakšava pristup strojno čitljivim podacima članaka za modeliranje, fino podešavanje, mjerenje performansi, usklađivanje i analizu, javlja The Verge.

Sadržaj unutar skupa podataka je otvoreno licenciran i od 15. aprila uključuje sažetke istraživanja, kratke opise, poveznice na slike, podatke iz info okvira i odjeljke članaka – bez referenci ili nepisanih elemenata poput audio datoteka.

„Dobro strukturirani JSON prikazi Wikipedijinog sadržaja“ dostupni korisnicima Kagglea trebali bi biti privlačnija alternativa „struganju ili parsiranju sirovog teksta članaka“, prema Wikimediji – problemu koji trenutno opterećuje Wikipedijine poslužitelje jer automatizirani AI botovi neumoljivo troše propusnost platforme.

Wikimedia već ima ugovore o dijeljenju sadržaja s Googleom i Internet Archiveom, ali partnerstvo s Kaggleom trebalo bi učiniti te podatke dostupnijima manjim kompanijama i nezavisnim naučnim podacima.

Podijeli ovaj članak