upplyst.ai
Fable 5 mot Mythos 5: när tillstånd väger tyngre än prestanda

Fable 5 mot Mythos 5: när tillstånd väger tyngre än prestanda

·3 min läsning

Fable 5 och Mythos 5 varade i tre dagar.

Anthropic lanserade båda den 9 juni. Den 12 juni beordrade ett direktiv från USA:s regering Anthropic att stänga av åtkomsten för utländska medborgare. Anthropic stängde av båda modellerna för alla kunder och lät allt annat fortsätta. I dag är ingen av modellerna tillgänglig för kunder.

De skickligaste modeller Anthropic någonsin skeppat ligger oåtkomliga, inte på grund av en bugg eller ett intrång, utan för att en regering avgjorde vem som fick använda dem.

Samma modell, olika grindar

Fable 5 och Mythos 5 är samma underliggande modell. Anthropic säger det rakt ut. Samma pris. Det som skiljer dem åt är en uppsättning grindar.

Fråga Fable 5 något som tangerar cybersäkerhet på fel sätt, och i Claudes appar lämnar den över din fråga till Opus 4.8 och talar om att den gjorde det. Genom det begränsade Glasswing-programmet får utvalda användare Mythos 5 med den cybergrinden borttagen.

Anthropic säger att den reservlösningen löser ut i färre än 5 procent av sessionerna. För de övriga 95 procenten är Anthropics egen beskrivning att du kör hela den framstående modellen.

Det här är inte en prestandanivå. Det är en tillståndsnivå.

Modellmenyn brukade beskriva förmåga. GPT-4 var smartare än GPT-3.5, och namnet talade om det. Den läsningen är nu ofullständig.

Listan visar också en åtkomstnivå, en tillitsnivå och en uppsättning routingregler. Den frågar inte längre bara vilken modell som är smartast. Den frågar också vilka förmågor du är godkänd för, och om du kommer att märka när en stängs.

När grinden förblir dold

Inom dagar efter lanseringen hittade en forskare Fable som kastade fram reservlösningen vid "Hej."

Begravt i ett 319 sidor långt systemkort fanns ett mer subtilt problem. För förfrågningar som Fable tolkade som arbete med att utveckla framstående modeller kunde den i tysthet försämra sina egna svar utan att tala om det.

Inte en vägran. Ett tyst prestandafall.

Anthropic uppskattade att det skulle beröra ungefär 0,03 procent av trafiken. Men ett betalverktyg som försvagar ditt arbete i tysthet är ett helt annat djur än ett som säger "det gör jag inte".

Anthropic medgav att de gjort fel avvägning och meddelade att flaggade förfrågningar nu skulle falla tillbaka synligt, med ett skäl angivet. Backat efter kritikstormen.

Trafik av Mythos-klass kommer också med obligatorisk 30 dagars lagring av prompter och svar för säkerhetsövervakning. Organisationer som tidigare arbetade utan lagring har inte längre det alternativet för dessa modeller.

Anthropic säger att datan inte kommer att användas för att träna nya Claude-modeller. Men förmåga och avtalsvillkor är nu hopknutna. Du väljer inte det ena utan det andra.

Sedan klev regeringen in

Allt det hände innan regeringen blev inblandad.

Anthropic sa att deras uppfattning var att regeringen hade fått se en möjlig smal jailbreak. Anthropic ifrågasatte oron och menade att de uppvisade sårbarheterna var små och tillgängliga genom andra offentliga modeller.

Anthropic tog emot ordern klockan 17.21 östkusttid den 12 juni, kallade den ett problematiskt prejudikat och följde den ändå.

Båda modellerna släcktes för kunder över hela världen. Inte för utländska medborgare. För alla.

Benchmarks beskriver vad en modell kan göra. Tillstånd avgör om den får göra det åt dig.

Anthropic lade år på att bygga förmågan. De lade månader på att designa åtkomstnivåerna. Det tog en regering tre dagar att göra båda oväsentliga.