ПОВЕЌЕ

    И ПОКРАЈ УСПЕХОТ НА CHATGPT И ДРУГИТЕ МОДЕЛИ, халуцинациите на вештачка интелигенција се влошуваат

    Време зa читање: 4 минути

    Вештачките чет-ботови од технолошки компании како што се OpenAI и Google добиваат таканаречени надградби на расудувањето во текот на изминатите месеци – за да бидат подобри во давањето одговори на кои можеме да им веруваме, но неодамнешните тестирања покажуваат дека понекогаш се справуваат полошо од претходните модели. Грешките направени од чет-ботовите, познати како „халуцинации“, се проблем од самиот почеток и станува јасно дека можеби никогаш нема да се ослободиме од нив пишува New Scientist.

    Халуцинацијата е генерален термин за одредени видови грешки направени од големите јазични модели (LLM) што ги напојуваат системи како ChatGPT на OpenAI или Gemini на Google. Најпозната е како опис на начинот на кој тие понекогаш ги претставуваат лажните информации како вистинити. Но, може да се однесува и на одговор генериран од вештачка интелигенција кој е фактички точен, но всушност не е релевантен за прашањето што му е поставено или не ги следи упатствата на некој друг начин.

    Техничкиот извештај на OpenAI во кој се оценуваат најновите LLM-а покажа дека неговите модели o3 и o4-mini, кои беа објавени во април, имале значително повисоки стапки на халуцинации од претходниот модел o1 на компанијата, кој излезе кон крајот на 2024 година. На пример, при сумирање на јавно достапни факти за луѓето, o3 халуцинирал 33 проценти од времето, додека o4-mini го правел тоа 48 проценти од времето. За споредба, o1 имал стапка на халуцинации од 16 проценти.

    Проблемот не е ограничен само на OpenAI. Една популарна табела од компанијата Vectara која ги проценува стапките на халуцинации покажува дека некои модели на „расудување“ – вклучувајќи го и моделот DeepSeek-R1 од развивачот DeepSeek – забележале двоцифрено зголемување на стапките на халуцинации во споредба со претходните модели од нивните развивачи. Овој тип модел поминува низ повеќе чекори за да демонстрира линија на расудување пред да одговори.

    OpenAI вели дека процесот на расудување не е причината. „Халуцинациите не се по природа позастапени во моделите на расудување, иако активно работиме на намалување на повисоките стапки на халуцинации што ги видовме во o3 и o4-mini“, вели портпарол на OpenAI. „Ќе продолжиме со нашето истражување на халуцинации низ сите модели за да ја подобриме точноста и сигурноста.“

    Некои потенцијални апликации за LLM би можеле да бидат попречени од халуцинации. Модел кој постојано наведува лаги и бара проверка на факти нема да биде корисен истражувачки асистент; бот за правници што цитира имагинарни случаи ќе ги доведе адвокатите во неволја; агент за услуги на клиентите кој тврди дека застарените политики се сè уште активни ќе создаде главоболки за компанијата.

    Сепак, компаниите за вештачка интелигенција првично тврдеа дека овој проблем ќе се реши со текот на времето. Всушност, откако беа првично лансирани, моделите имаа тенденција да халуцинираат помалку со секое ажурирање. Но, високите стапки на халуцинации во неодамнешните верзии го комплицираат тој наратив – без разлика дали расудувањето е виновно или не.

    Табелата на Vectara ги рангира моделите врз основа на нивната фактичка конзистентност во сумирањето на документите што им се дадени. Ова покажа дека „стапките на халуцинации се речиси исти за моделите со расудување наспроти оние без расудување“, барем за системите од OpenAI и Google, вели Форест Шенг Бао од Vectara.

    Google не даде дополнителен коментар. За потребите на табелата со рангирање, специфичните бројки за стапката на халуцинации се помалку важни од целокупното рангирање на секој модел, вели Бао.

    Но, ова рангирање можеби не е најдобриот начин за споредување на моделите со вештачка интелигенција. Тоа ги спојува различните видови халуцинации. Тимот на Vectara истакна дека, иако моделот DeepSeek-R1 халуцинирал во 14,3 проценти од времето, повеќето од нив биле „бенигни“: одговори кои се фактички поткрепени со логичко расудување или познавање на светот, но всушност не се присутни во оригиналниот текст што ботот бил замолен да го сумира. DeepSeek не даде дополнителен коментар.

    14,794Следи нè на facebookЛајк

    слично