ПОВЕЌЕ

    „ГО ДОСТИГНАВМЕ ЛИМИТОТ“: Според Маск вештачката интелигенција веќе го постигнала максимумот на податоците создадени од човекот

    Време зa читање: 4 минути

    Според Илон Маск, и покрај извонредно брзиот напредок на вештачката интелигенција, човештвото можеби веќе наишло на критична бариера: а тоа е конечноста на вистинските човечки податоци за обука на вештачката интелигенција.

    Наречена „врв на податоци“ („Peak Data“), оваа теорија сугерира дека интернетот ги обезбедил сите корисни информации генерирани од човекот што ги има, оставајќи ги развивачите на вештачка интелигенција да бараат алтернативи. Останува суштинското прашање: дали сè уште имаме доволно податоци за да ги нахраниме овие сè погладни модели?

    Ако е вистина, ова би можело да означи клучен момент во еволуцијата на вештачката интелигенција, принудувајќи ги компаниите да се потпираат на синтетички податоци – пристап кој доаѓа со свои ризици со високи влогови.

    ПОСТОИ ЛИ КРИЗА НА РАСПОЛОЖЛИВИ ПОДАТОЦИ?

    Идејата за постоењето „врв на податоци“ не е нова, но неодамнешните коментари на Маск повторно ја разгореа дебатата. Тој тврди дека пресвртната точка веќе се случила во 2024 година, што значи дека системите за вештачка интелигенција како ChatGPT, Gemini и Claude веќе се соочуваат со последиците. Терминот „врв на податоци“ е позајмен од концептот на „врв на нафта“ кој се однесуваат на максималното количество експлоатирана нафта, при што податоците за врвовите сугерираат дека понудата на нафтата, или, како во овој случај, квалитетни податоци за хранење на вештачката интелигенција – првенствено добиени од човековата активност на интернет – ја достигнала својата граница и наскоро ќе почне да опаѓа.

    Ова тврдење ги повторува предупредувањата од Илја Сутскевер, поранешен главен научник на OpenAI, кој уште во 2022 година предвиде дека на светот брзо му снема квалитетни податоци за обука на модели со вештачка интелигенција.

    Студиите ја потврдуваат оваа загриженост: Извештајот од Институтот за истражување на Епох сугерира дека податоците за обука базирани на текст би можеле да бидат исцрпени до 2027 година, додека висококвалитетните визуелни податоци може да траат до 2060 година. Но, дури и тие проценки може да бидат оптимистички. Бидејќи вештачката интелигенција проголта повеќе податоци од кога било, временската линија може драстично да се намали.

    Без свежи информации генерирани од човекот, моделите со вештачка интелигенција ризикуваат стагнација, зголемена пристрасност, па дури и регресија во нивните способности. Ова може да доведе до помалку прецизни, помалку иновативни системи – кошмарно сценарио за компаниите кои се обложуваат на својата иднина на вештачка интелигенција.

    МЕСТО РЕАЛНИТЕ – СИНТЕТИЧНИ ПОДАТОЦИ?

    Со пресушување на податоците од реалниот свет, технолошката индустрија се свртува кон синтетички податоци – информации создадени од самата вештачка интелигенција наместо да се извори од човечки активности.

    Големите играчи како Microsoft, Meta, OpenAI и Anthropic веќе интегрираат синтетични податоци во нивните цевководи за обука, при што некои проценки сугерираат дека 60% од податоците за обуката за вештачка интелигенција во 2024 година ќе бидат вештачки, синтетични.

    Ова се збирки на податоци создадени од алгоритми за вештачка интелигенција наместо да се извори од реалниот свет. Самиот Маск изрази поддршка за овој пристап, гледајќи го како изводливо решение за продолжување на обуката на модели со вештачка интелигенција.

    На површината, синтетичките податоци изгледаат како совршено решение. Ги заобиколува грижите за приватност, ги елиминира правните битки околу содржината заштитена со авторски права и овозможува практично неограничен материјал за обука. Но, има и темна страна: колапс на моделот.

    Студијата објавена во Nature издаде остро предупредување: кога моделите со вештачка интелигенција тренираат премногу на синтетички податоци, тие ризикуваат да станат самореферентни јамки – губење на различноста, зајакнување на пристрасноста и деградирање на квалитетот. Наместо да напредува, вештачката интелигенција би можела да почне да се храни со себе, создавајќи ехо комора на дезинформации.

    Следното големо коцкање на индустријата за вештачка интелигенција
    И покрај ризиците, компаниите како Google, Microsoft и OpenAI продолжуваат со синтетички податоци. Моделите како Phi-4, Claude 3.5 Sonnet и Gemma веќе се потпираат на вештачки генерирани сетови на податоци. Прашањето сега е: колку е премногу?

    И покрај овие ризици, привлечноста на синтетичките податоци останува силна за компаниите како Microsoft, Google и Anthropic. Тие веќе го имаат имплементирано во модели како што се Phi-4, Gemma и Claude 3.5 Sonnet. Централната дебата сега се врти околу изнаоѓање на вистинската рамнотежа помеѓу реалниот свет и синтетичките податоци.

    Балансирањето на реалните и синтетичките податоци може да ја одреди траекторијата на вештачката интелигенција за следната деценија. Преголемото потпирање на содржината генерирана од вештачка интелигенција може да доведе до стагнација и губење на креативноста, но без тоа, развојот на вештачката интелигенција би можел да запре.

    Оваа дебата не е само техничка – тоа е етичко и општествено прашање. Како што вештачката интелигенција станува се повеќе вкоренета во секојдневниот живот, начинот на кој ги обучуваме овие системи ќе ја обликува нивната точност, правичност и доверливост.

    (Фото: Декодер)

    14,794Следи нè на facebookЛајк

    слично