ТРИТЕ НАЈВАЖНИ ИНОВАЦИИ од областа на вештачката интелигенција за 2023 според магазинот ТАЈМ

1336

Време зa читање: 8 минути

На многу начини, 2023 година беше годината кога луѓето почнаа да разбираат што всушност е вештачката интелигенција – и што може да направи. Тоа беше годината кога чет-ботовите првпат станаа вистински вирални, и годината кога владите почнаа сериозно да го преземаат ризикот од вештачка интелигенција. Тие случувања не беа толку нови иновации, колку што беа технологии и идеи кои заземаат централно место по долг период на подготовка.

Но, имаше и многу нови иновации. Еве три од најголемите од изминатата година:

МУЛТИМОДАЛНОСТ

„Мултимодалноста“ можеби звучи како жаргон, но вреди да се разбере што значи тоа: тоа е способноста на системот за вештачка интелигенција да обработува многу различни типови на податоци – не само текст, туку и слики, видео, аудио и многу повеќе.

Оваа година беше првпат јавноста да добие пристап до моќни мултимодални модели со вештачка интелигенција. GPT-4 на OpenAI беше првиот од нив, дозволувајќи им на корисниците да поставуваат слики, како и внесување текст. GPT-4 може да ја „види“ содржината на сликата, што отвора секакви можности, на пример, прашувајќи ја што да подготвите за вечера врз основа на фотографија од содржината на вашиот фрижидер. Во септември, OpenAI ја претстави можноста за корисниците да комуницираат со ChatGPT преку глас, како и преку текст.

Најновиот модел Gemini на Google DeepMind, објавен во декември, може да работи и со слики и аудио. Видеото за лансирање споделено од Google го покажа моделот како идентификува патка врз основа на цртање на линија на белешка што е објавена. Во истото видео, откако им беше покажана слика од розово и сино предиво и прашаа што може да се искористи за да се создаде, Gemini генерира слика од розово и сино октопод кадифе. (Се чинеше дека маркетиншкото видео покажува дека Gemini набљудува подвижни слики и реагираат на аудио команди во реално време, но во објавата на својата веб-страница, Google рече дека видеото е уредено за краткост – и дека моделот бил поттикнат да користи фотографии, а не видео и текстуални предупредувања, а не аудио, иако моделот има аудио способности.)

„Мислам дека следното обележје на кое луѓето ќе се сетат и ќе се сеќаваат е [системите за вештачка интелигенција] да станат многу поцелосно мултимодални“, рече ко-основачот на Google DeepMind, Шејн Лег, на подкаст во октомври. „Рани денови во оваа транзиција, и кога ќе почнете навистина да варите многу видео и други слични работи, овие системи ќе почнат да имаат многу поосновано разбирање за светот“. Во интервју за TIME во ноември, извршниот директор на OpenAI, Сем Алтман, рече дека мултимодалноста во новите модели на компанијата ќе биде една од клучните работи на кои треба да се внимава следната година.

Ветувањето за мултимодалност не е само дека моделите стануваат покорисни. Исто така, моделите можат да се обучуваат на изобилство нови групи на податоци – слики, видео, аудио – кои содржат повеќе информации за светот отколку само текст. Верувањето во многу врвни компании за вештачка интелигенција е дека овие нови податоци за обука ќе се претворат во овие модели да станат поспособни или помоќни. Тоа е чекор на патот, се надеваат многу научници за вештачка интелигенција, кон „вештачка општа интелигенција“, вид на систем што може да одговара на човечкиот интелект, правејќи нови научни откритија и извршувајќи економски вреден труд.

„УСТАВНА“ ВЕШТАЧКА ИНТЕЛИГЕНЦИЈА

Едно од најголемите неодговорени прашања во вештачката интелигенција е како да се усогласи со човечките вредности. Ако овие системи станат попаметни и помоќни од луѓето, тие би можеле да предизвикаат невидена штета на нашиот вид – некои дури велат и целосно изумирање – освен ако, некако, не се ограничени со правила кои го ставаат човечкиот процут во нивниот центар.

Процесот што OpenAI го користеше за усогласување на ChatGPT (за да се избегне расистичкото и сексистичкото однесување на претходните модели) функционираше добро – но бараше голема количина на човечки труд, преку техника позната како „учење за зајакнување со човечки повратни информации“ или RLHF. Човечките оценувачи би ги процениле одговорите на вештачката интелигенција и би ѝ дале соодветна награда доколку одговорот е корисен, безопасен и усогласен со списокот со правила за содржина на OpenAI. Наградувајќи ја вештачката интелигенција кога беше добра и казнувајќи ја кога беше лоша, OpenAI разви ефикасен и релативно безопасен чет-бот.

Но, бидејќи процесот на RLHF во голема мера се потпира на човечки труд, постои голем знак прашалник за тоа колку е скалабилен. Скапо е. Тоа е предмет на предрасуди или грешки направени од поединечни оценувачи. Колку е покомплициран списокот на правила, станува склон кон неуспех. И изгледа малку веројатно дека ќе работи за системи со вештачка интелигенција кои се толку моќни што почнуваат да прават работи што луѓето не можат да ги разберат.

Уставната вештачка интелигенција – првпат опишана од истражувачите од врвната лабораторија за вештачка интелигенција Anthropic во документ од декември 2022 година – се обидува да ги реши овие проблеми, искористувајќи го фактот дека системите со вештачка интелигенција сега се доволно способни да разберат природен јазик. Идејата е прилично едноставна. Прво, пишувате „устав“ кој ги поставува вредностите што би сакале да ги следи вашата вештачка интелигенција. Потоа ја обучувате вештачката интелигенција да постигнува одговори врз основа на тоа колку тие се усогласени со уставот, а потоа го поттикнувате моделот да дава одговори со повисоки резултати.

Наместо засилено учење од човечки повратни информации, тоа е засилено учење од повратни информации за вештачка интелигенција. „Овие методи овозможуваат попрецизно да се контролира однесувањето на вештачката интелигенција и со многу помалку човечки ознаки“, напишаа истражувачите на Anthropic. Уставната вештачка интелигенција беше искористена за усогласување на одговорот на Клод, Антропик од 2023 година на ChatGPT. (Инвеститорите во Anthropic го вклучуваат Salesforce, каде што копретседавачот и сопственик на TIME, Марк Бениоф е извршен директор.)

„Со уставната вештачка интелигенција, вие експлицитно ги запишувате нормативните премиси со кои вашиот модел треба да му пристапи на светот“, изјави Џек Кларк, шеф на политиката на Anthropic, за TIME во август. „Тогаш моделот тренира за тоа“. Сè уште има проблеми, како што е тешкотијата да се осигури дека вештачката интелигенција ги има разбрано и словото и духот на правилата, („ги наложуваш чиповите на голем, непроѕирен модел на вештачка интелигенција“, вели Кларк), но техниката е ветувачки додаток на полето каде што новите стратегии за усогласување се малку и далеку помеѓу.

Се разбира, Уставната вештачка интелигенција не одговара на прашањето до чии вредности треба да се усогласи вештачката интелигенција. Но, Антропик експериментира со демократизација на тоа прашање. Во октомври, лабораторијата спроведе експеримент кој побара од репрезентативна група од 1.000 Американци да помогнат во изборот на правила за чет-бот, и откри дека иако има одредена поларизација, сè уште е можно да се подготви функционален устав врз основа на изјавите дека групата дошла до консензус за. Експериментите како овој би можеле да ја отворат вратата за иднината каде што обичните луѓе ќе имаат многу поголем збор за тоа како се управува со вештачката интелигенција, во споредба со денес, кога мал број директори од Силиконската долина ги пишуваат правилата.

ТЕКСТ-ВО-ВИДЕО

Еден забележлив исход од милијардите долари што се влеваат во вештачката интелигенција оваа година е брзиот пораст на алатките за текст во видео. Минатата година, алатките за текст-во-слика едвај се појавија од својот повој; сега, постојат неколку компании кои нудат можност речениците да ги претворат во подвижни слики со сè поситно нивоа на точност.

Една од тие компании е Runway, видео стартап со вештачка интелигенција со седиште во Бруклин, кој сака да го направи снимањето филмови достапно за секого. Неговиот најнов модел, Gen-2, им овозможува на корисниците не само да генерираат видео од текст, туку и да го менуваат стилот на постоечкото видео врз основа на текстуално известување (на пример, претворање на снимка од кутии со житарки на маса во ноќен градски пејзаж ,) во процес повикува видео-во-видео.

„Нашата мисија е да изградиме алатки за човечка креативност“, изјави извршниот директор на Runway, Кристобал Валензуела, за TIME во мај. Тој признава дека тоа ќе има влијание врз работните места во креативните индустрии, каде што алатките за вештачка интелигенција брзо застаруваат некои форми на техничка експертиза, но тој верува дека светот од другата страна вреди да се преврти. „Нашата визија е свет каде што човечката креативност се засилува и унапредува, а помалку се однесува на занаетот, и буџетот, и техничките спецификации и знаења што ги имате, а повеќе за вашите идеи. (Инвеститорите во Runway вклучуваат Salesforce, каде што копретседавачот и сопственик на TIME, Марк Бениоф е извршен директор.)

Друг стартап во просторот текст-во-видео е Pika AI, кој наводно се користи за создавање милиони нови видеа секоја недела. Водена од двајца отпуштени од Стенфорд, компанијата започна во април, но веќе има обезбедено финансирање што ја проценува на помеѓу 200 и 300 милиони долари, според Форбс. Не за професионалните филмаџии, туку за општите корисници, бесплатните алатки како Pika се обидуваат да го трансформираат пејзажот на содржини генерирани од корисниците. Тоа би можело да се случи веднаш во 2024 година – но алатките за текст во видео се пресметувачки скапи, па немојте да се изненадите ако почнат да наплаќаат за пристап штом ќе истече ризичниот капитал.

ТРИТЕ НАЈВАЖНИ ИНОВАЦИИ од областа на вештачката интелигенција за 2023 според магазинот ТАЈМ

слично