ТРЕБАА СААТИ, НЕ ДЕНОВИ: Mythos на Anthropic ги пробил најстрого заштитените системи на американската НСА

451

Време зa читање: 4 минути

Водечкиот модел на вештачка интелигенција Mythos на Anthropic наводно се инфилтрирал во речиси сите класифицирани системи на Националната агенција за безбедност (NSA) во рок од неколку часа за време на овластена евалуација од црвениот тим на 11 јуни. Овој инцидент сега се чини дека е главната причина за широка директива на владата на САД за контрола на извозот издадена следниот ден.

Сенаторот Марк Ворнер, потпретседател на Комитетот за разузнавање на Сенатот, откри дека генералот Џошуа Рад, кој истовремено ги води НСА и американската сајбер команда, директно му кажал дека моделот Mythos на Anthropic „провалил во речиси сите наши класифицирани системи, не за неколку недели, туку за неколку часа“.

Изјавата, првично објавена од The Economist, не е формално потврдена од ниту една владина агенција, но брзо го преобликува наративот околу одлуката на Вашингтон да ги повлече двата најнапредни модели на Anthropic од јавен пристап.

Објавувањето ја реконтекстуализира директивата на Министерството за трговија од 12 јуни, со која на секој странски државјанин, вклучително и вработените кои не се државјани на САД во самиот Anthropic, им е забранет пристапот до Fable 5 и Mythos 5.

Anthropic последователно ги суспендираше двата модели за сите клиенти. Клучно е што ова е прв пат Соединетите Американски Држави да применат контрола на извозот директно на модел на вештачка интелигенција, наместо на хардверот или чиповите што го напојуваат, што е значаен регулаторен преседан во управувањето со националната безбедност на вештачката интелигенција.

Сојузничките влади во рамките на разузнавачката алијанса „Пет очи“, вклучувајќи ги Австралија, Велика Британија, Канада и Нов Зеланд, наводно биле изненадени од постапката, кога дозволите за владини агенции, банките и големите фирми беа повлечени без претходно предупредување.

Антропик го оспорува наведеното образложение на владата. Компанијата тврди дека наведеното активирање било тесен jailbreak што го покажуваат и другите водечки модели, вклучувајќи го GPT-5.5, и го карактеризира големото повлекување како непропорционална прекумерна реакција.

Според извештајот на Антропик, обележаното однесување претставува барање од моделот да анализира база на кодови и да ги поправи идентификуваните проблеми, а не вистински автономен офанзивен упад. Компанијата активно работи на враќање на пристапот и подготвува рамка за соработка за управување со ризици со Белата куќа.

Бидејќи селективното спроведување на контроли за пристап врз основа на националност во голем обем е оперативно непрактично, Anthropic го прошири ограничувањето на целата своја глобална база на клиенти за да обезбеди целосна законска усогласеност. Пристапот до сите други модели на Anthropic останува непроменет.

Директивата не даде конкретни детали за нејзината загриженост за националната безбедност, но разбирањето на Anthropic е дека владата верува дека идентификувала метод за заобиколување или „џеилбрејк“ на Fable 5.

Наводната техника на џеилбрејк, како што е опишана на Anthropic, во суштина вклучува инструкции на моделот да прочита специфична база на кодови и да идентификува софтверски недостатоци. Според Anthropic, владата досега обезбедила само вербални докази за потенцијален тесен, неуниверзален џеилбрејк.

Anthropic разгледа демонстрација на специфичната техника и откри дека таа на површина изнесе само мал број претходно познати, помали ранливости. Критично е што компанијата наведува дека другите јавно достапни модели, вклучувајќи го и GPT-5.5 на OpenAI, можат да го произведат истиот излез без да бараат никаков бајпас.

Anthropic јавно призна дека совршената отпорност на џеилбрејк не е постигната од ниту еден добавувач на модели денес. Како одговор на тоа, компанијата усвои стратегија за длабинска одбрана: дизајнирање на неуниверзални џеилбрејкови да бидат со тесен опсег и универзални џеилбрејкови да бидат претерано скапи за производство, во комбинација со сеопфатен мониторинг за брзо откривање и исклучување на успешни напади.

Како дел од оваа стратегија, Anthropic имплементираше политика за задржување на податоци за клиентите во рок од 30 дена за моделите од класата Mythos за поддршка на тековните истражувања и ублажување на џеилбрејковите.

Anthropic им се извини на засегнатите клиенти и изјави дека работи итно на враќање на пристапот, со обврска да објави дополнителни технички детали во рок од 24 часа од директивата.

ТРЕБАА СААТИ, НЕ ДЕНОВИ: Mythos на Anthropic ги пробил најстрого заштитените системи на американската НСА

слично