КАКО ВРВЕН КИНЕСКИ МОДЕЛ СО ВЕШТАЧКА ИНТЕЛИГЕНЦИЈА ги надмина американските санкции

1976

Време зa читање: 6 минути

Заедницата за вештачка интелигенција е збунета поради DeepSeek R1, нов модел на расудување со отворен код.

Моделот е развиен од кинескиот стартап за вештачка интелигенција DeepSeek, кој тврди дека R1 се совпаѓа или дури го надминува ChatGPT o1 на OpenAI на повеќе клучни репери, но работи со мал дел од цената.

„Ова би можело да биде навистина изедначувачки пробив што е одличен за истражувачите и програмерите со ограничени ресурси, особено оние од глобалниот југ“, вели Ханченг Као, асистент професор по информациски системи на Универзитетот Емори.

Успехот на DeepSeek е уште позабележителен со оглед на ограничувањата со кои се соочуваат кинеските компании за вештачка интелигенција во форма на зголемување на американските извозни контроли на најсовремените чипови. Но, раните докази покажуваат дека овие мерки не функционираат како што е предвидено. Наместо да ги ослабат кинеските способности за вештачка интелигенција, санкциите се чини дека ги поттикнуваат стартапите како DeepSeek да иновираат на начини на кои приоритет им е ефикасноста, здружувањето на ресурсите и соработката.

За да се создаде R1, DeepSeek мораше да го преработи својот процес на обука за да го намали оптоварувањето на неговите графички процесори, сорта објавена од Nvidia за кинескиот пазар, а нивните перформанси се ограничени на половина од брзината на нејзините врвни производи, според Зихан Ванг, поранешен DeepSeek. вработен и актуелен докторант по компјутерски науки на Универзитетот Нортвестерн.

DeepSeek R1 е пофален од истражувачите за неговата способност да се справи со сложени задачи за расудување, особено во математиката и кодирањето. Моделот користи пристап „синџир на мисли“ сличен на оној што го користи ChatGPT o1, што му овозможува да ги решава проблемите со обработка на прашања чекор по чекор.

Димитрис Папаилиопулос, главен истражувач во истражувачката лабораторија за AI Frontiers на Мајкрософт, вели дека она што најмногу го изненадило кај R1 е неговата инженерска едноставност. „DeepSeek имаше за цел да добие точни одговори наместо да го детализира секој логичен чекор, значително да го намали времето на пресметување додека одржуваше високо ниво на ефикасност“, вели тој.

DeepSeek исто така објави шест помали верзии на R1 кои се доволно мали за да можат локално да работат на лаптопи. Тврди дека еден од нив дури и ги надминува о1-мини на OpenAI на одредени репери. „DeepSeek во голема мера го реплицира o1-mini и го има со отворен код“, твитна извршниот директор на Perplexity, Аравинд Сринивас.

И покрај вревата околу R1, DeepSeek останува релативно непознат. Со седиште во Хангжу, Кина, основана е во јули 2023 година од Лианг Венфенг, дипломец на Универзитетот Жеџијанг со позадина во информации и електронско инженерство. Беше инкубирана од High-Flyer, хеџ фонд што Лианг го основаше во 2015 година. Како и Сем Алтман од OpenAI, Лианг има за цел да изгради вештачка општа интелигенција (AGI), форма на вештачка интелигенција што може да одговара или дури и да ги победи луѓето на голем број задачи .

За обука на големи јазични модели (LLMs) потребен е тим од високо обучени истражувачи и значителна компјутерска моќ. Во неодамнешното интервју за кинескиот медиум LatePost, Каи-Фу Ли, претприемач ветеран и поранешен шеф на Google China, рече дека само „играчите од првиот ред“ обично се занимаваат со градење на модели на темели како што е ChatGPT, бидејќи тоа е толку ресурс- интензивна. Ситуацијата дополнително се комплицира со американските извозни контроли на напредни полупроводници. Меѓутоа, одлуката на High-Flyer да се впушти во ВИ е директно поврзана со овие ограничувања. Долго пред предвидените санкции, Лианг набави значителна залиха на чипови Nvidia A100, тип кој сега е забранет за извоз во Кина. Кинескиот медиум 36Kr проценува дека компанијата има над 10.000 единици на залиха, но Дилан Пател, основач на консултантската компанија за истражување за вештачка интелигенција SemiAnalysis, проценува дека има најмалку 50.000. Препознавањето на потенцијалот на оваа залиха за обука за вештачка интелигенција е она што го наведе Лианг да го основа DeepSeek, кој можеше да ги користи во комбинација со чипови со помала моќност за да ги развие своите модели.

Технолошките гиганти како Alibaba и ByteDance, како и неколку стартапи со инвеститори со длабок џеб, доминираат во кинескиот простор за вештачка интелигенција, што го прави предизвик за малите или средни претпријатија да се натпреваруваат. Компанија како DeepSeek, која не планира да собира средства, е ретка.

Зихан Ванг, поранешен вработен во DeepSeek, изјави за MIT Technology Review дека има пристап до изобилни компјутерски ресурси и дека му е дадена слобода да експериментира кога работи во DeepSeek, „луксуз што малкумина дипломирани студенти би го добиле во која било компанија“.

Во интервју за кинескиот медиум 36Kr во јули 2024 година, Лианг рече дека дополнителен предизвик со кој се соочуваат кинеските компании покрај санкциите за чипови, е тоа што нивните техники за инженерство со вештачка интелигенција имаат тенденција да бидат помалку ефикасни. „Ние, повеќето кинески компании, мораме да трошиме двојно поголема компјутерска моќ за да ги постигнеме истите резултати. Во комбинација со празнините во ефикасноста на податоците, ова може да значи дека ќе ви треба до четири пати поголема компјутерска моќ. Нашата цел е континуирано да ги затвораме овие празнини“, рече тој.

Но, DeepSeek најде начини да ја намали употребата на меморијата и да го забрза пресметувањето без значително да ја жртвува точноста. „Тимот сака да го претвори хардверскиот предизвик во можност за иновација“, вели Ванг.

Самиот Лианг останува длабоко вклучен во истражувачкиот процес на DeepSeek, спроведувајќи експерименти заедно со неговиот тим. „Целиот тим споделува заедничка култура и посветеност на хардкор истражувањата“, вели Ванг.

Освен што и даваат приоритет на ефикасноста, кинеските компании сè повеќе ги прифаќаат принципите на отворен код. Alibaba Cloud објави над 100 нови модели со вештачка интелигенција со отворен код, кои поддржуваат 29 јазици и се грижат за различни апликации, вклучувајќи кодирање и математика. Слично на тоа, стартапите како Minimax и 01.AI имаат отворен код нивните модели.

Според белата книга објавена минатата година од Кинеската академија за информатичка и комуникациска технологија, државен истражувачки институт, бројот на големи јазични модели со вештачка интелигенција ширум светот достигна 1.328, од кои 36% потекнуваат од Кина. Ова ја позиционира Кина како втор најголем придонесувач во вештачката интелигенција, зад Соединетите држави.

„Оваа генерација млади кинески истражувачи силно се идентификуваат со културата со отворен код, бидејќи тие имаат голема корист од тоа“, вели Томас Читонг Као, асистент професор по технолошка политика на Универзитетот Тафтс .

„Американската контрола на извозот во суштина ги поддржа кинеските компании во аголот каде што тие треба да бидат далеку поефикасни со нивните ограничени компјутерски ресурси“, вели Мет Шихан, истражувач на вештачка интелигенција во Карнеги фондацијата за меѓународен мир. „Веројатно ќе видиме многу консолидација во иднина поврзана со недостатокот на пресметување“.

Можеби тоа веќе почна да се случува. Пред две недели, Alibaba Cloud објави дека соработува со стартапот 01.AI со седиште во Пекинг, основан од Каи-Фу Ли, за да ги спои истражувачките тимови и да основа „индустриска лабораторија за големи модели“.

„Енергетски ефикасно и природно е да се појави некаква поделба на трудот во индустријата за вештачка интелигенција“, вели Као, професор на Тафтс. „Брзата еволуција на вештачката интелигенција бара агилност од кинеските фирми за да преживеат“.

КАКО ВРВЕН КИНЕСКИ МОДЕЛ СО ВЕШТАЧКА ИНТЕЛИГЕНЦИЈА ги надмина американските санкции

слично