СЕ ПОВЕЌЕ САЈТОВИ И МЕДИУМИ го блокираат тренирањето на вештачка интелигенција со нивни содржини

2644

Време зa читање: 4 минути

Oткако Apple тивко дебитираше со алатка за издавачите да се откажат од обуката за вештачка интелигенција, голем број истакнати новински издавачки куќи и социјални платформи се откажаа од опцијата вештачката интелигенција на оваа компанија да се обучува со користење на нивни објавени податоци.

WIRED потврди дека Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, мрежата USA Today и матичната компанија на WIRED, Condé Nast, се меѓу многуте организации кои одлучуваат да ги исклучат своите податоци од обуката за вештачка интелигенција на Apple.

Ладниот прием одразува значителна промена и во перцепцијата и во употребата на роботските роботи кои ја влечат мрежата со децении. Сега кога овие ботови играат клучна улога во собирањето податоци за обука за вештачка интелигенција, тие станаа зона на конфликт околу интелектуалната сопственост и иднината на мрежата.

Оваа нова алатка, Applebot-Extended, е екстензија на ботот за веб-кролингот на Apple што конкретно им овозможува на сопствениците на веб-страниците да му кажат на Apple да не ги користи нивните податоци за обука за вештачка интелигенција. (Apple ова го нарекува „контролирано користење на податоци“ во блог пост во кој објаснува како функционира.)

Оригиналниот Applebot, објавен во 2015 година, првично го пребаруваше интернетот за да ги напојува производите за пребарување на Apple како Siri и Spotlight. Меѓутоа, неодамна, целта на Applebot се прошири: податоците што ги собира може да се користат и за обука на основните модели што Apple ги создаде за своите напори за вештачка интелигенција.

Според портпаролот на Епл, Надин Хаија, Applebot-Extended е начин да се почитуваат правата на издавачите. Тоа всушност не го спречува оригиналниот Applebot да ја индексира веб-локацијата – што потоа ќе влијае на тоа како се појавува содржината на таа веб-локација во производите за пребарување на Apple – туку, наместо тоа, спречува тие податоци да се користат за обука на големите јазични модели на Apple и други генеративни проекти за вештачка интелигенција. Тоа е, во суштина, бот за да се приспособи како работи друг бот.

Издавачите можат да го блокираат Applebot-Extended со ажурирање на текстуална датотека на нивните веб-локации познати како протокол за исклучување на роботи или robots.txt. Оваа датотека управува со тоа како ботови ја гребат мрежата со децении – и како и самите ботови, сега е во центарот на поголема борба за тоа како вештачката интелигенција се тренира. Многу издавачи веќе ги ажурираа своите датотеки robots.txt за да ги блокираат ботови со вештачка интелигенција од OpenAI, Anthropic и други големи играчи со вештачка интелигенција.

Robots.txt им овозможува на сопствениците на веб-локации да блокираат или да дозволат ботови од случај до случај. Иако не постои законска обврска за ботови да се придржуваат до она што го кажува текстуалната датотека, усогласеноста е долгогодишна норма. (Норма што понекогаш се игнорира: претходно оваа година, истрагата WIRED откри дека стартапот за вештачка интелигенција Perplexity го игнорирал robots.txt и притајно „гребел“ веб-страници.)

Applebot-Extended е толку нов што релативно малку веб-локации сè уште го блокираат. Стартапот за откривање вештачка интелигенција Originality AI со седиште во Онтарио, Канада, анализираше примерок од 1.000 веб-локации со голем сообраќај минатата недела и откри дека приближно 7 проценти – претежно вести и медиуми – го блокираат Applebot-Extended.

Во посебна анализа спроведена оваа недела, новинарот за податоци Бен Велш откри дека нешто повеќе од една четвртина од веб-страниците за вести што ги истражувал (294 од 1.167 првенствено на англиски јазик, публикации со седиште во САД) го блокираат Applebot-Extended. За споредба, Велш откри дека 53 проценти од веб-страниците за вести во неговиот примерок го блокираат ботот на OpenAI.

Google го претстави својот сопствен бот специфичен за вештачка интелигенција, Google-Extended, минатиот септември; тој е блокиран од скоро 43 проценти од тие страници, што е знак дека Applebot-Extended можеби сè уште е под радарот. Како што вели Велш за WIRED, сепак, бројот постојано се зголемува, откако тој почна да следи.

СЕ ПОВЕЌЕ САЈТОВИ И МЕДИУМИ го блокираат тренирањето на вештачка интелигенција со нивни содржини

слично