Testiranje "najpametnejšega na svetu" Grok3

Skupina Aipu Waton (1)

Uvod

Mislite, da bo Grok3 "končna točka" predhodno usposobljenih modelov?

Elon Musk in ekipa Xai sta med živo v živo uradno predstavila najnovejšo različico Groka, Grok3. Pred tem dogodkom je velika količina povezanih informacij skupaj s 24/7 promocijskim hypejem Muskom povečala svetovna pričakovanja za Grok3 na ravni brez primere. Pred tednom dni je Musk med živovodom samozavestno izjavil, ko je komentiral Deepseek R1, "Xai bo kmalu predstavil boljši model AI." Iz predstavljenih podatkov v živo je Grok3 po poročanju presegel vse trenutne mainstream modele v merilih za matematiko, znanost in programiranje, Musk pa celo trdi, da bo Grok3 v treh letih uporabil za računalniške naloge, povezane s Spacexovimi misijami na Marsu in napovedoval "preboj na ravni Nobelovih nagrad." Vendar so to trenutno samo Muškove trditve. Po predstavitvi sem preizkusil najnovejšo različico beta Grok3 in postavil klasično vprašanje trika za velike modele: "Kateri je večji, 9.11 ali 9.9?" Na žalost brez kvalifikatorjev ali oznak tako imenovani najpametnejši Grok3 še vedno ni mogel pravilno odgovoriti na to vprašanje. Grok3 ni natančno ugotovil pomena vprašanja.

 

Ta test je hitro pritegnil veliko pozornosti številnih prijateljev in po naključju so različni podobni testi v tujini pokazali, da se Grok3 bori z osnovnimi vprašanji o fiziki/matematiki, kot so "Katera žoga pade najprej iz naslonjenega stolpa Pisa?" Tako je bil šaljivo označen kot "genij, ki noče odgovoriti na preprosta vprašanja."

640

Grok3 je dober, vendar ni boljši od R1 ali O1-Pro.

Grok3 je v praksi doživel "neuspehe" na številnih skupnih testih znanja. Med dogodkom Xai Launch je Musk pokazal z Grok3 za analizo razredov znakov in učinkov iz igre iz Exile 2, za katere je trdil, da igra pogosto, vendar je bila večina odgovorov Grok3 napačna. Musk med živovodnim tokom ni opazil tega očitnega vprašanja.

 

Ta napaka ni dala le nadaljnjih dokazov, da bi čezmorski netizeni posmehovali Musku za "iskanje nadomestila" v igrah na srečo, ampak je tudi izrazila pomembne pomisleke glede zanesljivosti Grok3 v praktičnih aplikacijah. Za takega "genija", ne glede na njegove dejanske zmogljivosti, ostaja njegova zanesljivost v izjemno zapletenih scenarijih uporabe, kot so naloge za raziskovanje Marsa, še vedno v dvomih.

 

Trenutno številni preizkuševalci, ki so pred tedni prejeli dostop do GROK-a, in tisti, ki so včeraj nekaj ur preizkusili modelne zmogljivosti, vse kažejo na skupni zaključek: "Grok3 je dober, vendar ni boljši od R1 ali O1-Pro."

640 (1)

Kritična perspektiva "motenja Nvidia"

V uradno predstavljenem PPT med izdajo se je v Areni Chatbot izkazalo, da je Grok3 "daleč naprej", vendar je ta spretno uporabljena grafična tehnika: navpična os na lestvici legine, ki je navedena le v dosegu rezultatov 1400-1300, zaradi česar je bila v tej predstavitvi prvotna razlika v rezultatih testov izjemno pomembna.

640

V dejanskih rezultatih ocenjevanja modela je GROK3 le 1-2% pred Deepseek R1 in GPT-4.0, kar ustreza izkušnjam številnih uporabnikov v praktičnih testih, ki niso ugotovili "nobene opazne razlike". GROK3 presega le svoje naslednike za 1%-2%.

640

Čeprav je GROK3 dosegel višje od vseh trenutno javno preizkušenih modelov, mnogi tega ne jemljejo resno: navsezadnje je bil Xai že predhodno kritiziran zaradi "manipulacije z oceno" v obdobju Grok2. Ker je lestvica kaznovala slog dolžine odgovorov, so se rezultati močno zmanjšali, vodilni notranji industriji pa so pogosto kritizirali pojav "visoke točkovanja, a nizke sposobnosti".

 

Ne glede na to, ali z "manipulacijo" na lestvici ali oblikovalski triki v ilustracijah razkrivajo obsedenost Xai in Muska s pojmom "vodenje paketa" v modelnih zmožnostih. Musk je za te marže plačal strmo ceno: med izstrelitvijo se je pohvalil, da je uporabil 200.000 H100 GPU -jev (v času v živo je zahteval "več kot 100.000" in dosegel skupni čas treninga v višini 200 milijonov ur. Zaradi tega so nekateri verjeli, da predstavlja še en pomemben blagoslov za industrijo GPU -ja in da je vpliv Deepseeka na sektor obravnaval kot "neumno". Nekateri verjamejo, da bo čista računska moč prihodnost modelnega usposabljanja.

 

Vendar pa so nekateri netizeni primerjali porabo 2000 H800 GPU -jev v dveh mesecih, da bi ustvarili Deepseek V3, kar je izračunalo, da je Grok3 -ova dejanska poraba energije za usposabljanje 263 -krat večja od V3. Razkorak med Deepseek V3, ki je dosegel 1402 točk, Grok3 pa je nekaj manj kot 100 točk. Po izdaji teh podatkov so mnogi hitro ugotovili, da za Grok3 -ovim naslovom kot "najmočnejšim" na svetu se skriva jasen mejni uporabnost - logika večjih modelov, ki ustvarjajo močnejše zmogljivosti, je začela prikazovati zmanjševanje donosov.

640 (2)

Tudi pri "visoki točkovanju, a nizki sposobnosti" je imel Grok2 ogromno kakovostnih podatkov o prvih letih s platforme X (Twitter) za podporo uporabi. Vendar je Xai na usposabljanju Grok3 seveda naletel na "strop", s katerim se trenutno sooča OpenAI - pomanjkanje premijskih podatkov o usposabljanju hitro izpostavlja mejno uporabnost zmogljivosti modela.

 

Razvijalci Grok3 in Muska so verjetno prvi, ki bodo te dejstva globoko razumeli in prepoznali, zato je Musk na družbenih medijih nenehno omenil, da so različice, ki jih uporabniki doživljajo zdaj, "še vedno samo beta" in da bo "celotna različica izšla v prihodnjih mesecih." Musk je prevzel vlogo vodje izdelkov Grok3, kar je predlagalo, da uporabnikom zagotavljajo povratne informacije o različnih vprašanjih, ki se srečujejo v razdelku s komentarji.

 

Kljub temu pa je v enem dnevu Grok3-ova zmogljivost nedvomno sprožila alarme za tiste, ki se upajo, da se bodo zanašali na "množično računalniško mišico" za usposabljanje močnejših velikih modelov: na podlagi javno dostopnih Microsoftovih informacij ima GPT-4 OpenAI velikosti parametrov 1,8 bilijona parametrov, več kot desetkrat več kot od GPT-3. Govorice kažejo, da je velikost parametra GPT-4.5 morda še večja.

 

Ko se velikosti parametrov modela naraščajo, se stroški usposabljanja tudi naraščajo. Ob prisotnosti Grok3, tekmovalci, kot je GPT-4.5, in drugi, ki želijo nadaljevati z "kurjenjem denarja", da bi dosegli boljšo uspešnost modela z velikostjo parametrov, morajo upoštevati zgornjo mejo, ki je zdaj jasno na vidiku in razmišlja o tem, kako ga premagati. V tem trenutku je Ilya Sutskever, nekdanja glavna znanstvenica pri OpenAI, pred tem decembra lani izjavila, "se bo predhodno usposabljanje, ki ga poznamo, končalo", ki se je ponovno pojavila v razpravah, kar je spodbudilo prizadevanja za iskanje prave poti za usposabljanje velikih modelov.

640 (3)

Ilya's Viewpoint je v industriji zvenela alarm. Natančno je predvidel skorajšnjo izčrpanost dostopnih novih podatkov, kar je vodilo do situacije, ko uspešnost ne more biti še naprej izboljšanje z zbiranjem podatkov, kar jo je primerjalo z izčrpanostjo fosilnih goriv. Nakazal je, da je "podobno kot naftna, človeška vsebina na internetu omejen vir." V napovedih Sutskeverja bo naslednja generacija modelov, po treningu po predprostorju, imela "resnično avtonomijo" in zmogljivosti sklepanja ", podobne človeškim možganom."

 

Za razliko od današnjih vnaprej usposobljenih modelov, ki se zanašajo predvsem na ujemanje vsebin (na podlagi predhodno naučene vsebine modela), se bodo prihodnji AI sistemi lahko naučili in vzpostavili metodologije za reševanje težav na način, ki je podoben "razmišljanju" človeških možganov. Človek lahko doseže temeljno znanje v temi s samo osnovno profesionalno literaturo, medtem ko AI velik model potrebuje milijone podatkovnih točk, da doseže ravno najosnovnejšo učinkovitost začetne ravni. Tudi ko se besedilo nekoliko spremeni, teh temeljnih vprašanj morda ni mogoče pravilno razumeti, kar kaže, da se model v inteligenci ni resnično izboljšal: osnovna, a nerešljiva vprašanja, omenjena na začetku članka, predstavljajo jasen primer tega pojava.

微信图片 _20240614024031.JPG1

Zaključek

Vendar pa, razen grobe sile, če Grok3 resnično uspe razkriti industriji, da se "predhodno usposobljeni modeli približujejo njihovemu koncu", bi to imelo pomembne posledice za teren.

Morda bomo po blaznosti, ki obdaja Grok3, postopoma popustili, bomo priča več primerih, kot je primer Fei-Fei Li, "uglaševanje modelov z visoko zmogljivostjo na določenem naboru podatkov za samo 50 dolarjev", na koncu pa odkrili resnično pot do AGI.

Poiščite raztopino kabla ELV

Kontrolni kabli

Za BMS, avtobus, industrijski, instrumentacijski kabel.

Strukturiran sistem kablov

Omrežje in podatki, optični kabel, optični kabel, popravka, moduli, nočna plošča

2024 Pregled razstav in dogodkov

16. april, 2024

16.-18., 2024 SECURIKA v Moskvi

9. maja 2024 Novi izdelki in tehnologije za zagon dogodka v Šanghaju

22. oktober-25, 2024 Varnostna Kitajska v Pekingu

Nov.19-20, 2024 povezani svet KSA


Čas objave: februar-19-2025