ПРОБЛЕМОТ СО ХАЛУЦИНАЦИИ НА CHATGPT СЕ ВЛОШУВА и никој не разбира зошто

3324

Време зa читање: 4 минути

Ботовите на вештачката интелигенција и досега произведувале барем некои халуцинации, кои се случуваат кога вештачкиот бот создава неточни информации врз основа на информациите до кои има пристап, но најновите модели o3 и o4-mini на OpenAI халуцинирале 30-50% од времето, според тестовите на компанијата, од причини кои не се сосема јасни.

OpenAI го смета o3 за свој најмоќен модел бидејќи е модел на „расудување“, кој одзема повеќе време за „размислување“ со разработка на одговори на прашања преку чекор-по-чекор расудување, при што компанијата тврди дека моделот може да размислува визуелно и да обработува слики.

Но, тоа не е само проблем на OpenAI: Друга неодамнешна алатка, моделот на расудување R1 на кинеската компанија DeepSeek, халуцинира многу повеќе од традиционалните модели на вештачка интелигенција на DeepSeek, според независни тестови од истражувачката фирма за вештачка интелигенција Vectara.

Иако компаниите не се сосема сигурни зошто моделите на расудување халуцинираат толку многу, New York Times објави дека овие модели можат да халуцинираат на секој чекор во текот на нивните напредни процеси на „размислување“, што значи дека има уште поголеми шанси за неточни одговори.

Њујорк Тајмс објавува дека истрагата на OpenAI за нивните најнови големи LLM GPT o3 и GPT o4-mini открила дека тие се значително посклони кон халуцинирање или измислување лажни информации од претходниот модел GPT o1.

„Компанијата откри дека o3 – нејзиниот најмоќен систем – халуцинирал 33 проценти од времето кога го спроведувал својот тест за анализа PersonQA, кој вклучува одговарање на прашања за јавни личности. Тоа е повеќе од двојно поголема стапка на халуцинации од претходниот систем за расудување на OpenAI, наречен o1. Новиот o4-mini халуцинирал со уште поголема стапка: 48 проценти“, вели Times.

„Кога се спроведувал друг тест наречен SimpleQA, кој поставува поопшти прашања, стапките на халуцинации за o3 и o4-mini биле 51 процент и 79 проценти. Претходниот систем, o1, халуцинирал 44 проценти од времето.“

OpenAI изјави дека се потребни повеќе истражувања за да се разбере зошто најновите модели се посклони кон халуцинации. Но, таканаречените модели на „расудување“ се главен кандидат според некои набљудувачи од индустријата.

„Најновите и најмоќните технологии – таканаречените системи за расудување од компании како OpenAI, Google и кинескиот стартап DeepSeek – генерираат повеќе грешки, а не помалку“, тврди Times.

Едноставно кажано, моделите на расудување се еден вид на LLM дизајниран за извршување сложени задачи. Наместо само да испишуваат текст врз основа на статистички модели на веројатност, моделите на расудување ги делат прашањата или задачите на поединечни чекори слични на човечкиот процес на размислување.

Првиот модел на расудување на OpenAI, o1, излезе минатата година и се тврдеше дека се совпаѓа со перформансите на докторантите по физика, хемија и биологија, и ги надминува во математика и кодирање благодарение на употребата на техники за засилено учење.

„Слично на тоа како човекот може да размислува долго време пред да одговори на тешко прашање, o1 користи синџир на мисли кога се обидува да реши проблем“, рече OpenAI кога беше објавен o1.

Сепак, OpenAI се спротивстави на наративот дека моделите на расудување страдаат од зголемени стапки на халуцинации. „Халуцинациите не се по природа позастапени кај моделите на расудување, иако активно работиме на намалување на повисоките стапки на халуцинации што ги видовме во o3 и o4-mini“, изјави Габи Раила од OpenAI за Times.

Каква и да е вистината, едно е сигурно. Моделите на вештачка интелигенција треба во голема мера да ги исфрлат бесмислиците и лагите ако сакаат да бидат ни приближно толку корисни како што нивните поддржувачи моментално замислуваат. Како што стојат работите, тешко е да се верува во резултатите од кој било LLM. Речиси сè мора внимателно да се провери двапати.

Останува да се види дали OpenAI и остатокот од индустријата за LLM можат да се справат со сите тие несакани соништа на роботи.

ПРОБЛЕМОТ СО ХАЛУЦИНАЦИИ НА CHATGPT СЕ ВЛОШУВА и никој не разбира зошто

слично