DeepSeek: Moteča, ki revolucionira pokrajino AI

AIPU Waton Group

Uvod

Nenehna tesnoba med konkurenčnimi velikimi modeli, ponudniki oblakov, ki se potegujejo za tržni delež, in pridni proizvajalci čipov - učinek Deepseek še vedno vztraja.

Ko se spomladanski festival zaključuje, navdušenje nad Deepseekom ostaja močno. Nedavni prazniki so izpostavili pomemben občutek konkurence v tehnološki industriji, mnogi pa so razpravljali in analizirali to "som". Silicijeva dolina doživlja brez primere občutka za krizo: zagovorniki odprtokod ponovno izrazijo svoje mnenje, celo OpenAI pa ponovno ocenjuje, ali je bila njegova strategija zaprtega vira najboljša izbira. Nova paradigma nižjih računskih stroškov je sprožila verižno reakcijo med velikani čipov, kot je NVIDIA, kar je privedlo do zabeleženih enodnevnih izgub tržne vrednosti v zgodovini ameriškega borznega trga, medtem ko vladne agencije preiskujejo skladnost s čipi, ki jih uporablja Deepseek. Med mešanimi pregledi Deepseeka v tujini, domači, doživlja izjemno rast. Po uvedbi modela R1 se je povezana aplikacija povečala v prometu, kar kaže na to, da bo rast v aplikacijskih sektorjih spodbudila celoten AI ekosistem naprej. Pozitiven vidik je, da bo Deepseek razširil možnosti uporabe, kar kaže na to, da zanašanje na Chatgpt v prihodnosti ne bo tako drago. Ta premik se je odražal v nedavnih dejavnostih OpenAI, vključno z zagotavljanjem modela sklepanja, imenovanega O3-MINI, da bi lahko svobodnim uporabnikom kot odziv na Deepseek R1, pa tudi za nadaljnje nadgradnje, zaradi katerih je bila miselna veriga O3-Mini javnosti. Številni čezmorski uporabniki so se za ta razvoj dogodkov izrazili hvaležnost, čeprav ta miselna veriga služi kot povzetek.

Optimistično je očitno, da Deepseek združuje domače igralce. S svojo osredotočenostjo na zmanjšanje stroškov usposabljanja se različni proizvajalci čipov na zgornjem toku, vmesni ponudniki oblakov in številni startupi aktivno pridružijo ekosistemu, kar izboljšuje stroškovno učinkovitost za uporabo modela Deepseek. Po podatkih Deepseek -ovih dokumentov celotno usposabljanje modela V3 zahteva le 2,788 milijona ur H800 H800, postopek usposabljanja pa je zelo stabilen. Arhitektura MOE (Mešanica strokovnjakov) je ključnega pomena za zmanjšanje stroškov pred treningom za faktor desetih v primerjavi s LLAMA 3 s 405 milijardami parametrov. Trenutno je V3 prvi javno priznan model, ki prikazuje tako visoko redkost v MOE. Poleg tega MLA (večplastna pozornost) deluje sinergistično, zlasti v vidikih sklepanja. "Čim redkejši je MOE, večja je velikost šarže, ki je bila potrebna med sklepanjem, da se v celoti izkoristijo računska moč, pri čemer je velikost kvcache ključni faktor omejevanja; MLA znatno zmanjša velikost kvcache," je v analizi za pregled tehnologije AI ugotovil raziskovalec iz tehnologije Chuanjing. Na splošno je uspeh Deepseeka v kombinaciji različnih tehnologij, ne le enega samega. Industrija industrije hvalijo inženirske zmogljivosti ekipe Deepseek, pri čemer opazijo svojo odličnost pri vzporednem usposabljanju in optimizaciji operaterjev, pri čemer dosežejo prelomne rezultate z izpopolnjevanjem vseh podrobnosti. Deepseekov odprtokodni pristop še naprej spodbuja celoten razvoj velikih modelov in pričakuje se, da se bodo podobni modeli razširili na slike, videoposnetke in še več, to bo bistveno spodbudilo povpraševanje v celotni panogi.

Priložnosti za storitve tretjih oseb

Podatki kažejo, da je Deepseek v 21 dneh od svoje izdaje nabral 22,15 milijona dnevnih aktivnih uporabnikov (DAU) in dosegel 41,6% uporabniške baze Chatgpta in presegel 16,95 milijona dnevnih aktivnih uporabnikov DOUBAO, s čimer je postal najhitrejša rastoča aplikacija v globalni ravni in v 157 državah/regijah. Medtem ko so uporabniki prileteli v droge, kibernetski hekerji neusmiljeno napadajo aplikacijo Deepseek, kar je povzročilo znatno obremenitev na svojih strežnikih. Industrijski analitiki menijo, da je to delno posledica Deepseek, ki uvajajo kartice za trening, hkrati pa nimajo dovolj računske moči za sklepanje. Industrijski notranji pregled AI tehnologije je "pogoste težave s strežnikom enostavno rešil z zaračunavanjem pristojbin ali financiranjem za nakup več strojev; na koncu je odvisno od odločitev Deepseeka." To predstavlja kompromis pri osredotočanju na tehnologijo v primerjavi s produkcijo. Deepseek se je v veliki meri opirala na kvantno kvantizacijo za samopredmetev, saj je prejela malo zunanjega financiranja, kar je povzročilo razmeroma nizek pritisk denarnega toka in čistejše tehnološko okolje. Trenutno glede na zgoraj omenjene težave nekateri uporabniki pozivajo Deepseek na družbenih medijih, naj dvignejo pragove uporabe ali uvedejo plačane funkcije za izboljšanje udobja uporabnikov. Poleg tega so razvijalci za optimizacijo začeli uporabljati uradni API ali API-je tretjih oseb. Vendar je odprta platforma Deepseek nedavno napovedala: "Trenutni strežniški viri je malo in so bile začasno prekinjene napolnitve storitev API -ja."

 

To nedvomno odpira več priložnosti za prodajalce tretjih oseb v infrastrukturnem sektorju AI. Pred kratkim so številni domači in mednarodni oblačni velikani predstavili model API -jev Deepseek - Everseas Giants Microsoft in Amazon sta bila med prvimi, ki sta se pridružila konec januarja. Domači vodja, Huawei Cloud, je 1. februarja naredil prvi korak in izdal storitve Deepseek R1 in V3 sklepanja v sodelovanju s silicijevim Flowom. Poročila iz AI Technology Review kažejo, da so storitve Flow-a, ki temelji na Siliconu, opazile priliv uporabnikov, ki so učinkovito "zrušili" platformo. Velika tri tehnološka podjetja-Baidu (Baidu, Alibaba, Tencent) in Bytedance-so izdala tudi nizkocenovne ponudbe z omejenim časom od 3. februarja, ki spominjajo na lanskoletne vojne prodajalcev v oblaku, ki so ga vžgali z modelom Deepseeka, kjer je Deepseek začel poimenovati "ceno mesarja." Nejasna dejanja prodajalcev v oblaku odmevajo prejšnje močne vezi med Microsoftom Azurejem in OpenAI, kjer je v letu 2019 Microsoft po lansiranju Chatgpta leta 2023 vložil veliko milijarde dolarjev naložb v OpenAI in izkoristil ugodnosti. Vendar pa se je ta tesni odnos začel razbiti po metah, ki so se z odprtimi omejenimi limami lotili. V tem primeru Deepseek ni samo presegel Chatgpt v smislu toplote izdelkov, ampak je po izdaji O1 uvedel tudi odprtokodne modele, podobno kot navdušenje nad oživljanjem Llame v GPT-3.

 

V resnici se ponudniki oblakov postavljajo tudi kot prometni prehodi za aplikacije AI, kar pomeni, da poglabljanje vezi z razvijalci pomeni predhodne prednosti. Poročila kažejo, da je imel Baidu Smart Cloud več kot 15.000 strank, ki so na dan predstavitve modela uporabljali model Deepseek prek platforme Qianfan. Poleg tega več manjših podjetij ponuja rešitve, vključno s silicijevim tokom, Luchen Technology, Chuanjing Technology in različnimi ponudniki AI infra, ki so sprožili podporo za modele Deepseek. AI Technology Review se je naučil, da trenutne možnosti optimizacije za lokalizirane uvajanja Deepseeka obstajajo predvsem na dveh področjih: ena optimizira za značilnosti redkosti modela MOE z uporabo mešanega sklepanja za uporabo 671 milijarde parametrov model MO za lokalno pri uporabi hibridnega sklepa o GPU/CPU. Poleg tega je ključnega pomena optimizacija MLA. Vendar se dva modela Deepseeka še vedno spopadata z nekaterimi izzivi pri optimizaciji uvajanja. "Zaradi velikosti modela in številnih parametrov je optimizacija res zapletena, zlasti za lokalne uvajanja, kjer bo doseganje optimalnega ravnovesja med uspešnostjo in stroški izziv," je dejal raziskovalec iz tehnologije Chuanyng. Najpomembnejša ovira je v premagovanju omejitev zmogljivosti pomnilnika. "Sprejemamo heterogeni pristop za sodelovanje, da v celoti uporabimo CPU-je in druge računske vire, pri čemer namestimo samo neomajene dele redke MOE matrice na CPU/DRAM za obdelavo z uporabo visokozmogljivih operaterjev CPU-ja, medtem ko goste dele ostanejo na GPU," je še dodatno pojasnil. Poročila kažejo, da Chuanjingov odprtokodni okvir Ktransformerji v prvotno izvajanje vstavijo različne strategije in operaterje v originalno izvajanje transformatorjev s predlogo in znatno povečajo hitrost sklepanja z uporabo metod, kot je Cudagraph. Deepseek je ustvaril priložnosti za te zagone, saj koristi za rast postajajo očitne; Številna podjetja so poročala o opazni rasti strank po zagonu API -ja Deepseek, pri čemer so prejela poizvedbe prejšnjih strank, ki iščejo optimizacije. Industrijski notranji ljudje so zapisali: "V preteklosti so bile nekoliko uveljavljene skupine strank pogosto zaprte v standardizirane storitve večjih podjetij, ki so zaradi njihove stroškovne prednosti zaradi obsega. Vendar pa smo po končani napotitvi Deepseek-R1/V3 pred pomladnim festivalom nenadoma prejeli zahteve za sodelovanje več znanih strank." Trenutno se zdi, da Deepseek ustvarja uspešnost sklepanja vse bolj kritične, s širšim sprejemanjem velikih modelov pa bo to še naprej vplivalo na razvoj v industriji AI infra. Če bi model na ravni globine lahko uporabili lokalno z nizkimi stroški, bi to zelo pomagalo vladi in podjetniškim prizadevanjem za digitalno preobrazbo. Vendar pa izzivi obstajajo, saj lahko nekatere stranke imajo velika pričakovanja glede velikih modelnih zmogljivosti, zaradi česar je bolj očitno, da uravnoteženje uspešnosti in stroškov postane ključnega pomena za praktično uvajanje. 

Če želite oceniti, ali je Deepseek boljši od chatgpt, je nujno razumeti njihove ključne razlike, prednosti in primere uporabe. Tu je celovita primerjava:

Funkcija/vidik DeepSeek Chatgpt
Lastništvo Razvilo kitajsko podjetje Razvil OpenAI
Izvorni model Odprtokodna Lastniški
Stroški Brezplačno za uporabo; Možnosti dostopa do cenejših API -jev Naročnina ali plačne cene na uporabo
Prilagoditev Zelo prilagodljiv, ki uporabnikom omogoča, da se prilagodijo in nadgradijo na njem Na voljo je omejena prilagoditev
Uspešnost pri določenih nalogah Odlikuje se na nekaterih področjih, kot sta analitika podatkov in iskanje informacij Vsestransko z močno uspešnostjo pri kreativnem pisanju in pogovornih nalogah
Jezikovna podpora Močna osredotočenost na kitajski jezik in kulturo Široka jezikovna podpora, vendar usmerjena v ZDA
Stroški usposabljanja Nižji stroški usposabljanja, optimizirani za učinkovitost Višji stroški usposabljanja, ki zahtevajo znatne računske vire
Sprememba odziva Lahko ponuja različne odzive, na katere morda vpliva geopolitični kontekst Dosledni odgovori na podlagi podatkov o usposabljanju
Ciljna publika Namenjen razvijalcem in raziskovalcem, ki želijo prožnost Namenjen splošnim uporabnikom, ki iščejo pogovorne zmogljivosti
Primere uporabe Učinkovitejše za ustvarjanje kode in hitre naloge Idealno za ustvarjanje besedila, odgovarjanje na poizvedbe in vključevanje v dialog

Kritična perspektiva "motenja Nvidia"

Trenutno poleg Huaweija več domačih proizvajalcev čipov, kot so Moore Threds, Muxi, Biran Technology in Tianxu Zhixin, se tudi prilagajajo dvema modelima Deepseek. Proizvajalec čipov je za AI Technology Review povedal: "Deepseekova struktura prikazuje inovacije, vendar ostaja LLM. Naša prilagoditev Deepseeku je osredotočena predvsem na aplikacije za sklepanje, zaradi česar je tehnično izvajanje dokaj enostavno in hitro." Vendar pristop MOE zahteva večje zahteve glede skladiščenja in distribucije, skupaj z zagotavljanjem združljivosti pri nameščanju z domačimi čipi, ki predstavljajo številne inženirske izzive, ki jih je treba med prilagajanjem rešiti. "Trenutno se domača računalniška moč ne ujema z NVIDIA v uporabnosti in stabilnosti, kar zahteva izvirno tovarniško udeležbo za nastavitev programskega okolja, odpravljanje težav in temeljno optimizacijo uspešnosti," je dejal industrijski praktik, ki temelji na praktičnih izkušnjah. Hkrati "zaradi velike lestvice parametrov Deepseek R1 potrebuje domača računska moč več vozlišč za paralelizacijo. Poleg tega so domače strojne specifikacije še vedno nekoliko zaostajajo; na primer Huawei 910b ne more podpirati sklepanja FP8, ki ga je uvedel Deepseek." Eden od vrhuncev modela Deepseek V3 je uvedba FP8 mešanega natančnega usposabljanja, ki je bil učinkovito potrjen na izjemno velikem modelu, kar pomeni pomemben dosežek. Prej so glavni akterji, kot sta Microsoft in Nvidia, predlagali povezano delo, vendar dvomijo v panogo glede izvedljivosti. Razume se, da je v primerjavi z INT8 glavna prednost FP8 ta, da lahko kvantizacija po treningu doseže skoraj brez izgube, hkrati pa znatno poveča hitrost sklepanja. V primerjavi s FP16 lahko FP8 uresniči do dvakrat pospeševanje na NVIDIA H20 in več kot 1,5 -krat pospeševanje na H100. Zlasti, ko razprave o trendu domače računske moči in domačih modelov pridobivajo na zamiku, ugibajo o tem, ali bi lahko NVIDIA motili in ali bi lahko jarek Cuda zaokrožili, vse bolj prevladujejo. Eno nedvomno dejstvo je, da je Deepseek resnično povzročil velik padec tržne vrednosti Nvidije, vendar ta premik sproža vprašanja v zvezi z NVIDIA-jevo vrhunsko računalniško moči. Predhodno sprejete pripovedi o kapitalskem računalniškem kopičenju so izpodbijane, vendar je NVIDIA v celoti nadomestiti v scenarijih usposabljanja. Analiza globoke uporabe CUDA Deepseek kaže, da fleksibilnost - na primer uporaba SM za komunikacijo ali neposredno manipuliranje omrežnih kartic - ni izvedljiva, da se običajni GPU -ji prilagodijo. Industrijska stališča poudarjajo, da Nvidijin jarek obsega celoten ekosistem CUDA in ne le CUDA, in navodila PTX (vzporedna navodila), ki jih uporablja Deepseek, so še vedno del ekosistema CUDA. "Kratkoročno računalniške moči Nvidije ni mogoče zaobiti - to je še posebej jasno pri usposabljanju; vendar bo uvajanje domačih kartic za sklepanje razmeroma lažje, zato bo napredek verjetno hitrejši. Prilagajanje domačih kartic se osredotoča predvsem na sklepanje; nihče se še ni uspel usposabljati model uspešnosti Deepseeka na domače kartice. Na splošno so z vidika sklepanja okoliščine spodbudne za domače velike modelne čipe. Priložnosti za proizvajalce domačih čipov v okviru sklepa so bolj očitne zaradi pretirano visokih zahtev treninga, kar ovira vstop. Analitiki trdijo, da je zadostno preprosto izkoriščanje domačega sklepanja; Če je potrebno, je pridobitev dodatnega stroja izvedljivo, medtem ko modeli usposabljanja predstavljajo edinstvene izzive - povečanje števila strojev lahko postane obremenjujoče, višje stopnje napak pa lahko negativno vplivajo na rezultate treninga. Usposabljanje ima tudi posebne zahteve glede lestvice grozda, medtem ko zahteve po grozdih za sklepanje niso tako stroge, s čimer olajšajo zahteve GPU. Trenutno zmogljivost NVIDIA -jeve enojne kartice H20 ne presega uspešnosti Huaweija ali Kambrije; Njegova moč je v grozdu. Na podlagi splošnega vpliva na trg računalniške moči je ustanovitelj Luchen Technology, Yang, zapisano v intervjuju za AI Technology Review, "Deepseek lahko začasno spodkopava ustanovitev in najem ultra velikih računalniških grozdov za usposabljanje. Dolgoročno z bistveno zmanjševanjem stroškov, ki so povezane z velikimi modelnimi, ki temeljijo na trgu, ki se na trgu verjetno ne bo več, kar je mogoče, da trga trga, ki se ne morejo pojavljati na trgu, kar je verjetno, da se trgajo trg, ki se ne morejo pojavljati na trgu, ki je verjetno, da se trga trga, ki se ne bo več trudila, na trgu, ki se ne bo več, kar je verjetno, da bi trgali tržni trg, ki je verjetno, da trga trga, ki se ne bo več trudila, na trg, ki se ne morejo izogniti trgu. na trgu računalniške moči. " Poleg tega je "Deepseekovo povečano povpraševanje po sklepanju in natančno nastavitev storitev bolj združljivo z domačo računalniško pokrajino, kjer so lokalne zmogljivosti razmeroma šibke in pomagajo ublažiti odpadke iz prostega vira po ustanovitvi, kar ustvarja sposobne za proizvajalce na različnih ravneh domačega računalniškega ekosistema." Luchen Technology je sodelovala s Huawei Cloud, da bi predstavila API -je Deepseek R1 serije R1 in storitve slikanja v oblaku, ki temeljijo na domači računski moči. Yang ste izrazili optimizem glede prihodnosti: "Deepseek vzbuja zaupanje v domače rešitve, kar spodbuja večje navdušenje in naložbe v domače računalniške zmogljivosti."

微信图片 _20240614024031.JPG1

Zaključek

Ali je Deepseek "boljši" od Chatgpt, je odvisno od posebnih potreb in ciljev uporabnika. Za naloge, ki potrebujejo prilagodljivost, nizke stroške in prilagajanje, so lahko Deepseek boljše. Za kreativno pisanje, splošno poizvedbo in uporabnikom prijaznim pogovornim vmesnikom lahko Chatgpt prevzame vodstvo. Vsako orodje služi različnim namenom, zato bo izbira močno odvisna od konteksta, v katerem se uporabljajo.

Poiščite raztopino kabla ELV

Kontrolni kabli

Za BMS, avtobus, industrijski, instrumentacijski kabel.

Strukturiran sistem kablov

Omrežje in podatki, optični kabel, optični kabel, popravka, moduli, nočna plošča

2024 Pregled razstav in dogodkov

16. april, 2024

16.-18., 2024 SECURIKA v Moskvi

9. maja 2024 Novi izdelki in tehnologije za zagon dogodka v Šanghaju

22. oktober-25, 2024 Varnostna Kitajska v Pekingu

Nov.19-20, 2024 povezani svet KSA


Čas objave: februar-10-2025