Za BMS, BUS, industrijske, instrumentalne kable.

Medtem ko se spomladanski festival bliža koncu, vznemirjenje okoli DeepSeeka ostaja močno. Nedavni praznik je poudaril precejšen občutek konkurence v tehnološki industriji, mnogi pa so razpravljali in analizirali tega "soma". Silicijeva dolina doživlja krizo brez primere: zagovorniki odprte kode znova izražajo svoja mnenja, celo OpenAI ponovno ocenjuje, ali je bila njegova strategija zaprte kode najboljša izbira. Nova paradigma nižjih računalniških stroškov je sprožila verižno reakcijo med velikani čipov, kot je Nvidia, kar je privedlo do rekordnih dnevnih izgub tržne vrednosti v zgodovini ameriškega borznega trga, medtem ko vladne agencije preiskujejo skladnost čipov, ki jih uporablja DeepSeek. Sredi mešanih ocen DeepSeeka v tujini, doma doživlja izjemno rast. Po lansiranju modela R1 je povezana aplikacija zabeležila porast prometa, kar kaže, da bo rast v sektorjih aplikacij spodbudila napredek celotnega ekosistema umetne inteligence. Pozitiven vidik je, da bo DeepSeek razširil možnosti aplikacij, kar kaže na to, da zanašanje na ChatGPT v prihodnosti ne bo tako drago. Ta premik se je odražal v nedavnih dejavnostih OpenAI, vključno z zagotavljanjem modela sklepanja, imenovanega o3-mini, brezplačnim uporabnikom kot odgovor na DeepSeek R1, ter poznejšimi nadgradnjami, zaradi katerih je veriga misli o3-mini postala javna. Mnogi tuji uporabniki so izrazili hvaležnost DeepSeeku za ta razvoj, čeprav ta veriga misli služi kot povzetek.
Optimistično je očitno, da DeepSeek združuje domače akterje. S svojim poudarkom na zmanjševanju stroškov usposabljanja se različni proizvajalci čipov, vmesni ponudniki storitev v oblaku in številna zagonska podjetja aktivno pridružujejo ekosistemu, kar povečuje stroškovno učinkovitost uporabe modela DeepSeek. Glede na članke DeepSeeka celotno učenje modela V3 zahteva le 2,788 milijona ur GPU H800, proces usposabljanja pa je zelo stabilen. Arhitektura MoE (mešanica strokovnjakov) je ključnega pomena za zmanjšanje stroškov predhodnega učenja za faktor deset v primerjavi z Llama 3 s 405 milijardami parametrov. Trenutno je V3 prvi javno priznani model, ki dokazuje tako visoko redkost v MoE. Poleg tega MLA (večplastna pozornost) deluje sinergistično, zlasti pri vidikih sklepanja. "Bolj redek kot je MoE, večja je velikost serije, potrebna med sklepanjem, da se v celoti izkoristi računska moč, pri čemer je velikost KVCache ključni omejujoči dejavnik; MLA znatno zmanjša velikost KVCache," je v analizi za AI Technology Review ugotovil raziskovalec iz podjetja Chuanjing Technology. Na splošno je uspeh DeepSeeka v kombinaciji različnih tehnologij, ne le ene same. Strokovnjaki iz industrije hvalijo inženirske zmogljivosti ekipe DeepSeek in poudarjajo njihovo odličnost pri vzporednem usposabljanju in optimizaciji operaterjev, saj dosegajo prelomne rezultate z izpopolnjevanjem vsake podrobnosti. DeepSeekov odprtokodni pristop dodatno spodbuja celoten razvoj velikih modelov in pričakuje se, da bo, če se bodo podobni modeli razširili na slike, videoposnetke in drugo, to znatno spodbudilo povpraševanje v celotni panogi.
Priložnosti za storitve sklepanja tretjih oseb
Podatki kažejo, da je DeepSeek od svoje izdaje v samo 21 dneh pridobil 22,15 milijona dnevno aktivnih uporabnikov (DAU), kar predstavlja 41,6 % uporabniške baze ChatGPT in presega 16,95 milijona dnevno aktivnih uporabnikov aplikacije Doubao, s čimer je postal najhitreje rastoča aplikacija na svetu in je v 157 državah/regijah prehitel Apple App Store. Medtem ko so uporabniki množično prihajali, so kibernetski hekerji neusmiljeno napadali aplikacijo DeepSeek, kar je povzročilo znatno obremenitev njenih strežnikov. Analitiki v industriji menijo, da je to deloma posledica dejstva, da DeepSeek uporablja kartice za usposabljanje, medtem ko nima zadostne računalniške moči za sklepanje. Izvor panoge je za AI Technology Review povedal: »Pogoste težave s strežniki je mogoče enostavno rešiti z zaračunavanjem pristojbin ali financiranjem nakupa več naprav; navsezadnje je to odvisno od odločitev DeepSeeka.« To predstavlja kompromis med osredotočanjem na tehnologijo in produktizacijo. DeepSeek se je za samooskrbo v veliki meri zanašal na kvantno kvantizacijo, saj je prejel malo zunanjega financiranja, kar je povzročilo relativno nizek pritisk na denarni tok in čistejše tehnološko okolje. Trenutno zaradi zgoraj omenjenih težav nekateri uporabniki na družbenih omrežjih pozivajo DeepSeek, naj zviša pragove uporabe ali uvede plačljive funkcije za izboljšanje udobja uporabnikov. Poleg tega so razvijalci za optimizacijo začeli uporabljati uradni API ali API-je tretjih oseb. Vendar pa je odprta platforma DeepSeek pred kratkim sporočila: »Trenutni strežniški viri so omejeni in polnjenja storitev API-ja so bila zaustavljena.«
To nedvomno odpira več priložnosti za zunanje ponudnike v sektorju infrastrukture umetne inteligence. Pred kratkim so številni domači in mednarodni velikani v oblaku predstavili DeepSeekove modelne API-je – čezmorska velikana Microsoft in Amazon sta se jim med prvimi pridružila konec januarja. Vodilni domači ponudnik, Huawei Cloud, je naredil prvi korak in 1. februarja v sodelovanju s podjetjem Flow, ki temelji na podjetju Silicon, izdal storitve sklepanja DeepSeek R1 in V3. Poročila AI Technology Review kažejo, da so storitve Flow, ki temelji na podjetju Silicon, zabeležile pritok uporabnikov, kar je platformo dejansko »zrušilo«. Tudi tri velika tehnološka podjetja – BAT (Baidu, Alibaba, Tencent) in ByteDance – so od 3. februarja dalje izdala cenovno ugodne ponudbe z omejenim časom, kar spominja na lanskoletne cenovne vojne ponudnikov v oblaku, ki jih je sprožila lansiranje modela V2 podjetja DeepSeek, kjer je DeepSeek začel veljati za »cenovnega mesarja«. Mrzlična dejanja ponudnikov storitev v oblaku odražajo prejšnje močne vezi med Microsoft Azure in OpenAI, kjer je Microsoft leta 2019 v OpenAI vložil znatno milijardo dolarjev in požrl koristi po lansiranju ChatGPT leta 2023. Vendar pa se je ta tesen odnos začel krčiti, potem ko je Meta odprla kodo Llama, kar je drugim ponudnikom zunaj ekosistema Microsoft Azure omogočilo, da konkurirajo njihovim velikim modelom. V tem primeru DeepSeek ni le presegel ChatGPT po vročini izdelkov, ampak je po izdaji o1 uvedel tudi odprtokodne modele, podobno navdušenju, ki je spremljalo Llamino oživitev GPT-3.
V resnici se ponudniki storitev v oblaku pozicionirajo tudi kot prometna vrata za aplikacije umetne inteligence, kar pomeni, da poglabljanje vezi z razvijalci prinaša preventivne prednosti. Poročila kažejo, da je imel Baidu Smart Cloud na dan lansiranja modela več kot 15.000 strank, ki so uporabljale model DeepSeek prek platforme Qianfan. Poleg tega ponuja rešitve več manjših podjetij, vključno s Flow na osnovi silicija, Luchen Technology, Chuanjing Technology in različnimi ponudniki infrastrukture umetne inteligence, ki so uvedli podporo za modele DeepSeek. AI Technology Review je ugotovil, da trenutne možnosti optimizacije za lokalizirane uvedbe DeepSeek obstajajo predvsem na dveh področjih: eno je optimizacija značilnosti redkosti modela MoE z uporabo mešanega pristopa sklepanja za lokalno uvedbo modela MoE s 671 milijardami parametrov ob uporabi hibridnega sklepanja GPU/CPU. Poleg tega je ključnega pomena optimizacija MLA. Vendar se modela DeepSeek še vedno soočata z nekaterimi izzivi pri optimizaciji uvajanja. "Zaradi velikosti modela in številnih parametrov je optimizacija resnično zapletena, zlasti pri lokalnih uvajanjih, kjer bo doseganje optimalnega ravnovesja med zmogljivostjo in stroški izziv," je dejal raziskovalec iz Chuanjing Technology. Najpomembnejša ovira je premagovanje omejitev pomnilniške zmogljivosti. »Za popolno izkoriščanje procesorjev in drugih računalniških virov uporabljamo heterogen pristop sodelovanja, pri čemer na procesor/DRAM za obdelavo z visokozmogljivimi operatorji procesorja nameščamo le neskupne dele redke matrike MoE, medtem ko gosti deli ostanejo na grafičnem procesorju,« je nadalje pojasnil. Poročila kažejo, da Chuanjingov odprtokodni okvir KTransformers v prvotno implementacijo Transformerjev v prvi vrsti vbrizga različne strategije in operatorje prek predloge, kar znatno izboljša hitrost sklepanja z metodami, kot je CUDAGraph. DeepSeek je ustvaril priložnosti za ta zagonska podjetja, saj so koristi rasti očitne; številna podjetja so poročala o opazni rasti strank po uvedbi DeepSeek API-ja, saj so prejela povpraševanja prejšnjih strank, ki so iskale optimizacije. Poznavalci industrije so ugotovili: »V preteklosti so bile nekoliko uveljavljene skupine strank pogosto vezane na standardizirane storitve večjih podjetij, tesno povezane s svojimi stroškovnimi prednostmi zaradi obsega. Vendar pa smo po zaključku uvajanja DeepSeek-R1/V3 pred pomladnim festivalom nenadoma prejeli prošnje za sodelovanje od več znanih strank, celo prej mirujoče stranke pa so sprožile stik, da bi predstavile naše storitve DeepSeek.« Trenutno se zdi, da DeepSeek vse bolj poudarja pomen zmogljivosti sklepanja modelov, in s širšo uporabo velikih modelov bo to še naprej pomembno vplivalo na razvoj industrije infrastrukture umetne inteligence. Če bi se model na ravni DeepSeek lahko lokalno uvedel po nizki ceni, bi to močno pomagalo pri prizadevanjih vlade in podjetij za digitalno preobrazbo. Vendar pa izzivi ostajajo, saj imajo nekatere stranke lahko visoka pričakovanja glede zmogljivosti velikih modelov, zaradi česar je bolj očitno, da je uravnoteženje zmogljivosti in stroškov ključnega pomena pri praktični uvedbi.
Da bi ocenili, ali je DeepSeek boljši od ChatGPT, je bistveno razumeti njihove ključne razlike, prednosti in primere uporabe. Tukaj je obsežna primerjava:
Značilnost/Vidik | Globoko iskanje | GPT klepeta |
---|---|---|
Lastništvo | Razvilo kitajsko podjetje | Razvito s strani OpenAI |
Izvorni model | Odprtokodno | Lastniško |
Stroški | Brezplačna uporaba; cenejše možnosti dostopa do API-ja | Naročnina ali plačilo na uporabo |
Prilagoditev | Visoko prilagodljiv, kar uporabnikom omogoča prilagajanje in nadgradnjo | Na voljo je omejena prilagoditev |
Uspešnost pri določenih nalogah | Odlikuje se na določenih področjih, kot sta analiza podatkov in iskanje informacij | Vsestranski z odličnimi rezultati pri ustvarjalnem pisanju in pogovornih nalogah |
Jezikovna podpora | Močan poudarek na kitajskem jeziku in kulturi | Široka jezikovna podpora, vendar osredotočena na ZDA |
Stroški usposabljanja | Nižji stroški usposabljanja, optimizirano za učinkovitost | Višji stroški usposabljanja, ki zahtevajo znatne računalniške vire |
Sprememba odziva | Lahko ponudi različne odgovore, na katere lahko vpliva geopolitični kontekst | Dosledni odgovori na podlagi podatkov o usposabljanju |
Ciljna publika | Namenjeno razvijalcem in raziskovalcem, ki si želijo fleksibilnosti | Namenjeno splošnim uporabnikom, ki iščejo pogovorne sposobnosti |
Primeri uporabe | Učinkovitejše za ustvarjanje kode in hitre naloge | Idealno za ustvarjanje besedila, odgovarjanje na vprašanja in sodelovanje v dialogu |
Kritični pogled na "prekinitev delovanja Nvidie"
Trenutno se poleg Huaweija na dva modela DeepSeek prilagaja tudi več domačih proizvajalcev čipov, kot so Moore Threads, Muxi, Biran Technology in Tianxu Zhixin. Proizvajalec čipov je za AI Technology Review povedal: »Struktura DeepSeeka sicer dokazuje inovativnost, vendar ostaja LLM. Naša prilagoditev DeepSeeku je osredotočena predvsem na aplikacije sklepanja, zaradi česar je tehnična izvedba dokaj enostavna in hitra.« Vendar pa pristop MoE zahteva višje zahteve glede shranjevanja in distribucije, skupaj z zagotavljanjem združljivosti pri uvajanju z domačimi čipi, kar predstavlja številne inženirske izzive, ki jih je treba rešiti med prilagajanjem. »Trenutno domača računalniška moč ne dosega Nvidie po uporabnosti in stabilnosti, kar zahteva sodelovanje prvotne tovarne pri nastavitvi programskega okolja, odpravljanju težav in optimizaciji temeljne zmogljivosti,« je na podlagi praktičnih izkušenj dejal strokovnjak iz industrije. Hkrati pa »zaradi velikega obsega parametrov DeepSeek R1 domača računalniška moč zahteva več vozlišč za vzporedno uporabo. Poleg tega domače specifikacije strojne opreme še vedno nekoliko zaostajajo; na primer Huawei 910B trenutno ne more podpirati sklepanja FP8, ki ga je uvedel DeepSeek.« Eden od vrhuncev modela DeepSeek V3 je uvedba mešanega ogrodja za natančno učenje FP8, ki je bilo učinkovito potrjeno na izjemno velikem modelu, kar pomeni pomemben dosežek. Pred tem so veliki akterji, kot sta Microsoft in Nvidia, predlagali sorodno delo, vendar v industriji še vedno obstajajo dvomi glede izvedljivosti. Razume se, da je v primerjavi z INT8 glavna prednost FP8 ta, da lahko kvantizacija po učenju doseže skoraj brezizgubno natančnost, hkrati pa znatno izboljša hitrost sklepanja. V primerjavi s FP16 lahko FP8 doseže do dvakratno pospešitev na Nvidijinem H20 in več kot 1,5-kratno pospešitev na H100. Omeniti velja, da se s pridobivanjem zagona razprav o trendu domače računalniške moči in domačih modelov vse bolj širijo ugibanja o tem, ali bi lahko Nvidia bila motena in ali bi se lahko zaobšla omejitev CUDA. Neizpodbitno dejstvo je, da je DeepSeek dejansko povzročil znaten padec tržne vrednosti Nvidie, vendar ta premik sproža vprašanja o integriteti Nvidijine vrhunske računalniške moči. Prej sprejete pripovedi o računalniški akumulaciji, ki jo poganja kapital, so izpodbijane, vendar je za Nvidio še vedno težko v celoti nadomestiti podjetje v scenarijih učenja. Analiza globoke uporabe CUDA s strani DeepSeeka kaže, da fleksibilnost – kot je uporaba SM za komunikacijo ali neposredno upravljanje omrežnih kartic – ni izvedljiva za običajne grafične procesorje. Stališča industrije poudarjajo, da Nvidijin jarek zajema celoten ekosistem CUDA in ne le sam CUDA, navodila PTX (Parallel Thread Execution), ki jih uporablja DeepSeek, pa so še vedno del ekosistema CUDA. "Kratkoročno Nvidijine računalniške moči ni mogoče zaobiti – to je še posebej očitno pri učenju; vendar bo uporaba domačih kartic za sklepanje relativno lažja, zato bo napredek verjetno hitrejši. Prilagoditev domačih kartic se osredotoča predvsem na sklepanje; nihče še ni uspel usposobiti modela delovanja DeepSeeka na domačih karticah v velikem obsegu," je za AI Technology Review pripomnil industrijski analitik. Na splošno so okoliščine z vidika sklepanja spodbudne za domače velike modele čipov. Priložnosti za domače proizvajalce čipov na področju sklepanja so bolj očitne zaradi pretirano visokih zahtev glede usposabljanja, ki ovirajo vstop. Analitiki trdijo, da zadostuje zgolj uporaba domačih kartic za sklepanje; po potrebi je izvedljiv nakup dodatnega stroja, medtem ko modeli usposabljanja predstavljajo edinstvene izzive – upravljanje večjega števila strojev lahko postane obremenjujoče, višje stopnje napak pa lahko negativno vplivajo na rezultate usposabljanja. Usposabljanje ima tudi posebne zahteve glede obsega grozdov, medtem ko zahteve za grozde za sklepanje niso tako stroge, kar olajša zahteve glede grafičnih procesorjev. Trenutno zmogljivost ene same kartice Nvidia H20 ne presega zmogljivosti Huaweija ali Cambria; njena moč je v združevanju v grozde. Glede na celoten vpliv na trg računalniške moči je ustanovitelj podjetja Luchen Technology, You Yang, v intervjuju za AI Technology Review ugotovil: »DeepSeek lahko začasno spodkoplje vzpostavitev in najem ultra velikih učnih računalniških grozdov. Dolgoročno se bo z znatnim zmanjšanjem stroškov, povezanih z učenjem, sklepanjem in aplikacijami velikih modelov, povpraševanje na trgu verjetno povečalo. Nadaljnje iteracije umetne inteligence, ki temeljijo na tem, bodo zato nenehno spodbujale trajno povpraševanje na trgu računalniške moči.« Poleg tega je »povečano povpraševanje podjetja DeepSeek po storitvah sklepanja in natančnega uglaševanja bolj združljivo z domačo računalniško krajino, kjer so lokalne zmogljivosti relativno šibke, kar pomaga zmanjšati izgubo zaradi neizkoriščenih virov po vzpostavitvi grozda; to ustvarja izvedljive priložnosti za proizvajalce na različnih ravneh domačega računalniškega ekosistema.« Podjetje Luchen Technology je sodelovalo s podjetjem Huawei Cloud pri lansiranju API-jev za sklepanje serije DeepSeek R1 in storitev slikanja v oblaku, ki temeljijo na domači računalniški moči. You Yang je izrazil optimizem glede prihodnosti: »DeepSeek vliva zaupanje v doma proizvedene rešitve ter spodbuja večje navdušenje in naložbe v domače računalniške zmogljivosti v prihodnje.«

Zaključek
Ali je DeepSeek "boljši" od ChatGPT, je odvisno od specifičnih potreb in ciljev uporabnika. Za naloge, ki zahtevajo prilagodljivost, nizke stroške in prilagoditve, je DeepSeek morda boljši. Za kreativno pisanje, splošno poizvedovanje in uporabniku prijazne pogovorne vmesnike lahko ChatGPT prevzame vodilno vlogo. Vsako orodje služi različnim namenom, zato bo izbira močno odvisna od konteksta, v katerem se uporablja.
Krmilni kabli
Strukturirani kabelski sistem
Omrežje in podatki, optični kabel, povezovalni kabel, moduli, prednja plošča
16.–18. april 2024 Bližnjevzhodna energija v Dubaju
16.–18. april 2024 Securika v Moskvi
9. maj 2024, DOGODEK OB PREDSTAVITVI NOVIH IZDELKOV IN TEHNOLOGIJ v Šanghaju
22.–25. oktober 2024 SECURITY CHINA v Pekingu
19.–20. november 2024 CONNECTED WORLD KSA
Čas objave: 10. februar 2025