Кинеската лабораторија за вештачка интелигенција DeepSeek се проби во мејнстрим свестаглобално оваа недела откако нејзината апликација за чет-бот се искачи на врвот на топ листите на Apple App Store (и на Google Play, исто така). Моделите со вештачка интелигенција на DeepSeek, кои беа обучени со користење на компјутерски ефикасни техники, ги наведоа аналитичарите од Волстрит – и технолозите – да се запрашаат дали САД можат да го задржат своето водство во трката за вештачка интелигенција и дали побарувачката за чипови со вештачка интелигенција ќе се одржи.
КОЈ СТОИ ЗАД ДИПСИК?
Но, од каде дојде DeepSeek и како толку брзо стана меѓународно славен?DeepSeek е поддржан од High-Flyer Capital Management, кинески квантитативен хеџ фонд кој користи вештачка интелигенција за да ги информира своите трговски одлуки, пишува специјализираниот магазин Вајрд.
Ентузијастот за вештачка интелигенција Лианг Венфенг го коосноваше High-Flyer во 2015 година. Венфенг, кој наводно почнал да се занимава со тргување додека бил студент на Универзитетот во Жеџијанг, го лансираше High-Flyer Capital Management како хеџ фонд во 2019 година фокусиран на развивање и распоредување на алгоритми за вештачка интелигенција.
Во 2023 година, High-Flyer го започна DeepSeek како лабораторија посветена на истражување на алатки за вештачка интелигенција одвоени од нејзиниот финансиски бизнис. Со High-Flyer како еден од нејзините инвеститори, лабораторијата се претвори во сопствена компанија, исто така наречена DeepSeek.
Од првиот ден, DeepSeek изгради свои кластери за центри за податоци за обука на модели. Но, како и другите компании за вештачка интелигенција во Кина, DeepSeek беше погодена од забраните за извоз на хардвер од САД. За да обучи еден од своите понови модели, компанијата беше принудена да користи чипови Nvidia H800, помалку моќна верзија на чипот, H100, достапна за американските компании.
Се нагласува дека техничкиот тим на DeepSeek е млад. Компанијата, наводно, агресивно регрутира докторанти истражувачи на вештачката интелигенција од врвни кинески универзитети. DeepSeek, исто така, вработува луѓе без никакво искуство во компјутерската наука за да и помогне на својата технологија подобро да разбере широк опсег на теми, според The New York Times.
КАКВИ СЕ МОДЕЛИТЕ НА DEEPSEEK?
DeepSeek го претстави својот прв сет на модели – DeepSeek Coder, DeepSeek LLM и DeepSeek Chat – во ноември 2023 година.
DeepSeek-V2, систем за анализа на текст и слика за општа намена, се покажа добро во различни одредници за вештачка интелигенција – и беше многу поевтин за работа од споредливите модели во тоа време. Тоа ја принуди домашната конкуренција на DeepSeek, вклучувајќи ги ByteDance и Alibaba, да ги намалат цените за користење за некои од нивните модели, а другите да ги направат потполно бесплатни.
DeepSeek-V3, лансиран во декември 2024 година, само се додаде на озлогласеноста на DeepSeek.
Според внатрешното тестирање на DeepSeek, DeepSeek V3 ги надминува и моделите за преземање, отворено достапни како Meta’s Llama и „затворените“ модели до кои може да се пристапи само преку API, како што е GPT-4o на OpenAI.
Подеднакво импресивен е моделот на „расудување“ на DeepSeek R1. Објавен во јануари, DeepSeek тврди дека R1 функционира исто како и моделот o1 на OpenAI на клучните репери.
Како модел за расудување, R1 ефикасно се проверува себеси, што му помага да избегне некои од замките што вообичаено ги сопнуваат моделите. На моделите за резонирање им треба малку подолго – обично од секунди до минути – за да дојдат до решенија во споредба со типичниот модел што не расудува. Предноста е што тие имаат тенденција да бидат посигурни во домени како што се физиката, науката и математиката.
Сепак, има негативна страна на R1, DeepSeek V3 и другите модели на DeepSeek. Бидејќи се вештачка интелигенција развиена од Кина, тие се предмет на бенчмаркинг од страна на кинескиот интернет регулатор за да се осигура дека неговите одговори „ги отелотворуваат основните социјалистички вредности“. Во апликацијата за разговор на DeepSeek, на пример, R1 нема да одговара на прашања за плоштадот Тјенанмен или за автономијата на Тајван.
НАВИСТИНА ЕВТИНИ ИЛИ САМО ДОБАР МАРКЕТИНГ?
Ако DeepSeek има деловен модел, не е јасно што точно е тој модел. Компанијата ги цени своите производи и услуги далеку под пазарната вредност – и ги подарува другите бесплатно.
Како што кажува DeepSeek, откритијата со кои беше подобрена ефикасноста му овозможија да биде екстремно конкурентен со трошоците. Сепак, некои експерти ги оспоруваат бројките што компанијата ги испорача.
Каков и да е случајот, програмерите се насочија кон моделите на DeepSeek, кои не се со отворен код како што фразата обично се разбира, но се достапни под дозволиви лиценци кои дозволуваат комерцијална употреба. Според Клем Деланг, извршен директор на Hugging Face, една од платформите што ги хостираат моделите на DeepSeek, програмерите на Hugging Face создадоа над 500 „деривативни“ модели на R1 кои собраа 2,5 милиони преземања заедно.
Успехот на DeepSeek против поголемите и поутврдени ривали е опишан како „превртена вештачка интелигенција“ и „претерано нагласена“. Успехот на компанијата беше барем делумно одговорен за тоа што предизвика пад на цената на акциите на Nvidia за 18% во понеделникот и за предизвикување јавен одговор од извршниот директор на OpenAI, Сем Алтман.
Мајкрософт објави дека DeepSeek е достапен на неговата услуга Azure AI Foundry, платформата на Мајкрософт која ги обединува услугите за вештачка интелигенција за претпријатијата под едно знаме.
На прашањето за влијанието на DeepSeek врз трошоците за вештачка интелигенција на Мета за време на нејзиниот повик за заработка во првиот квартал, извршниот директор Марк Закерберг рече дека трошењето на инфраструктурата за вештачка интелигенција ќе продолжи да биде „стратешка предност“ за Мета.
Во исто време, некои компании го забрануваат DeepSeek, а исто така и цели земји и влади. Државата Њујорк, исто така, забрани DeepSeek да се користи на владини уреди.
Што се однесува до иднината на DeepSeek, таа не е јасна. Подобрените модели се придобивка. Но, владата на САД се чини дека станува претпазлива за она што го смета за штетно странско влијание.
(Фото:Лианг Венфенг, извршен директор на DeepSeek AI. Chinatalk Media)