sajtó csomag
SAJTÓKAPCSOLAT
Tel: +36 1 457 0561
Fax: +36 1 457 0562
Cím: 1115 Budapest,
Bartók Béla út 105-113.
DeepSeek: a sötét ló az élre tör
DeepSeek: a sötét ló az élre tör
Ezt senki nem látta jönni: az eddig egyébként inkább ígéretes mellékszereplőnek tűnő kínai DeepSeek mesterséges intelligencia chatbotja a nyugati, különösen az amerikai techóriások legrosszabb rémálmát testesíti meg. Nem elég, hogy a v3-as és R1-es modelleket rendkívül kis apparátussal hozták létre, az OpenAI-hoz (és az általában vett nyugati konkurenciához) képest jóval olcsóbb képzési költséggel trenírozták, és árazásában töredéke a piacvezető termékeknek. Cikkünk írásakor az MIT szabványainak is megfelelő, nyílt rendszer megjelenése az amerikai tőzsdére is negatív hatással lett. Érdemes tehát a sokak által MI-történeti epizódnak tartott DeepSeek fejlesztéseiről még többet megtudnunk.
Mit tud a DeepSeek V3 és R1?
A DeepSeek AI két legkiemelkedőbb modellje a DeepSeek V3 és R1. A DeepSeek V3 egy nagy, 671 milliárd paraméterrel rendelkező Mixture-of-Experts (MoE) modell, melyből egyszerre 37 milliárd paraméter aktív. Így a modell hatalmas tudást képes tárolni anélkül, hogy minden számítási erőforrást egyszerre igénybe venne. A V3-at 14,8 billió adaton képezték, és a legújabb eredmények szerint teljesítménye a GPT-4o és Claude 3.5 Sonnet szintjét is eléri, sőt, bizonyos területeken (kódolás, matematika) felül is múlja azokat. A DeepSeek R1 ezzel szemben a következtetési képességekre koncentrál. Ez a modell kétlépcsős megerősítéses tanulással (reinforcement learning, RL) jött létre, amellyel a modell fokozatosan tanulta meg, hogyan kell helyesen következtetni, és hogyan kell az emberi elvárásoknak megfelelően válaszolni.
Milyen szakmai alapokon működik a DeepSeek?
A DeepSeek modelljei több innovatív technikán alapulnak:
-
Multi-Head Latent Attention (MLA): Ez az architektúra csökkenti a modell memóriaigényét, ami gyorsabb és hatékonyabb működést tesz lehetővé.
-
DeepSeekMoE: Ez a Mixture-of-Experts (MoE) architektúra lehetővé teszi, hogy a modell különböző szakértői egységeket használjon a feladatok megoldásához, növelve ezzel a hatékonyságot.
-
Multi-Token Prediction (MTP): Ezzel a módszerrel a modell egyszerre több tokent dolgoz fel, ami gyorsabbá és pontosabbá teszi a szövegértést.
-
Reinforcement Learning (RL): Az R1 modell a megerősítéses tanulást használja a következtetési képességeinek fejlesztésére. Kétlépcsős RL-módszerrel a modell finomítja a válaszait, és jobban igazodik az emberi elvárásokhoz.
-
Distillation: A DeepSeek R1 tudását desztillálják kisebb, sűrű modellekbe, így elérve, hogy a kisebb modellek is hatékonyan tudjanak következtetni.
Mit jelent a „reasoning” a DeepSeek esetében?
Ez az R1 egyik leglátványosabb jellemzője. A DeepSeek R1 modell esetében a "reasoning" ugyanis a logikai következtetések képességét takarja. A modell a Chain-of-Thought (CoT) módszert alkalmazva lépésről lépésre gondolja végig a feladatokat, amelyet a felhasználó is élőben követhet. A CoT egy olyan prompttervezési technika, amely arra ösztönzi a modelleket, hogy ne csak a végső választ adják meg, hanem részletesen fejtsék ki a gondolatmenetüket. A DeepSeek a megerősítéses tanulás segítségével fejleszti a következtetési képességeit, így biztosítva, hogy a modell logikusan és helyesen oldja meg a feladatokat. Ez különösen fontos a komplexebb, többlépcsős problémák megoldásában, ahol nem elég csupán a végső választ tudni, hanem érteni kell a problémát is.
Ezzel a DeepSeek alig két hetet hagyott arra, hogy a nagy OpenAI-konkurens, az o3 érvelési-logikai képességein ámuldozzon a világ, mert megjött az R1.
Rendben, de mennyibe kerül mindez?
Ez a következő fájdalmas pont az amerikai cégek számára. A DeepSeek modellek nemcsak teljesítményükkel, hanem az árazásukkal is forradalmasíthatják a piacot. A DeepSeek R1 API árazása jelentősen eltér az OpenAI o1 modelljétől. Míg az OpenAI o1 esetében a bemeneti tokenek ára 15 dollár/millió token, addig a DeepSeek R1-nél ez mindössze 0,55 dollár/millió token. A kimeneti tokenek ára is drasztikusan alacsonyabb a DeepSeeknél, 2,19 dollár/millió token, szemben az OpenAI o1 60 dollár/millió token árával. Ezzel a jelentős költségkülönbséggel a DeepSeek a modelleket szélesebb körben elérhetővé teszi, és a fejlesztők számára sokkal kedvezőbb feltételeket biztosít. (A DeepSeek árazása így körülbelül 20-50-szer olcsóbb, mint a versenytársaké.) Ez az árazásbeli különbség lehetővé teszi, hogy akár egyéni fejlesztők is hozzáférjenek a legmodernebb MI-technológiához, és a nagyméretű cégek is jelentős költségcsökkentést érjenek el.
Mi a DeepSeek és a mögötte lévő kínai cég és az alapító története?
A DeepSeek egy kínai MI-startup, amelyet Liang Wenfeng alapított. Liang korábban a High-Flyer nevű kvantitatív befektetési alap vezetője volt. A DeepSeeket teljes mértékben a High-Flyer finanszírozza, nem terveznek külső tőkebevonást, és a felvásárlási szándékokat megelőzendő kijelentették, hogy a cég nem eladó. A vállalat a mesterséges általános intelligencia (AGI) elérésére összpontosít, és nem a kereskedelmi alkalmazásokra. Liang, aki megítélésében időközben a „kínai Steve Jobs/Elon Musk” kultusza felé tart, egy visszafogott személyiség, aki továbbra is részt vesz a napi kutatómunkában. A cég elkötelezett a nyílt forráskód mellett, és modelljeit bárki szabadon használhatja.
Érdekesség, hogy a DeepSeek eredményeit nem az USA-ban cserediákként-alkalmazottként dolgozó kínaiakkal érte el: Wenfengék a legkiválóbb kínai egyetemekről rekrutáltak fiatal tehetségeket. Sokatmondó a hatékonyságban az alkalmazottak száma: míg például az OpenAI ezernél is több munkatárssal rendelkezik, a DeepSeek kutatási, nyilvános dokumentuma alig 200 (!) nevet tartalmaz, akiket – a szokástól eltérő nyíltsággal – közzé is tett (nem félve attól, hogy legjobb embereiket az amerikai konkurensek dollármilliós fizetésekkel és bónuszokkal levadásszák).
Az egész történetben ez az egyik újdonság: egy kínai cég a lehető legtranszparensebb módon szinte mindent elmond a fejlesztéséről, elérhetővé teszi a modelljét. A két új fejlesztés ráadásul helyi gépen (vagy mobilon), függetlenül is használható, teljesen ingyen. A kínai állam(párt) kontrolljától, adatgyűjtésétől tartók így teljesen nyugodtan élhetnek a v3 és R1 előnyeivel. Ez alaposan odavág a Meta Llama, ugyancsak nyílt rendszerének épp a teljesítménye és az elképesztő árképzése miatt.
Miért kell félnie az Nvidiának a DeepSeek-től?
A DeepSeek megjelenése kihívást jelent az Nvidia számára, mivel a cég üzleti modellje a drága GPU-k eladására épül. Ha az MI-fejlesztés elérhetővé válik olcsóbb hardvereken is, mint pl. ahogy az amerikai chipembargóval sújtott DeepSeek esetében, az Nvidia piacvesztéshez vezethet. A DeepSeek innovatív megközelítése azt sugallja, hogy nem feltétlenül szükségesek a hatalmas adatközpontok és a drága GPU-k ahhoz, hogy versenyképes MI-modelleket hozzanak létre.
A Nasdaq, az amerikai tőzsde hevesen reagált a DeepSeek globális sikerére: 2025. január 27-én az Nvidia tőzsdei értéke 600 milliárd (!!!) dollárt zuhant a megelőző kereskedési naphoz képest, és a többi technológiai cég papírjai sem érezhetik magukat biztonságban. (A Nasdaqon elérhető amerikai részvények 30%-a technológiai szektorhoz kapcsolódik.) Igaz, utána az árfolyam visszakorrigált, de az eset jelezte a helyzetben lévő hosszú távú veszélyt.
Mi a további fejlesztési irány?
A DeepSeek ígéretes jövő előtt áll. A cég tovább kívánja fejleszteni modelljeit, különösen a hosszú szövegértést, a többnyelvűséget és a funkcióhívási képességeket. A nyílt forráskódú megközelítés és az alacsony költségek miatt a DeepSeek a jövőben is fontos szereplője lehet a mesterséges intelligencia piacának. Habár egyes vélemények szerint a teszteredmények nem feltétlenül tükrözik a valós teljesítményt, a DeepSeek kétségkívül felrázta az MI-piacot, és a jövőben még sok meglepetést tartogathat. Azt, hogy a cég ténylegesen mennyire lesz sikeres, még a jövő fogja eldönteni, de egy biztos: az innovatív hozzáállásával és technológiájával a DeepSeek már most is jelentős hatást gyakorolt a mesterséges intelligencia világára.
Egyes amerikai elemzők az új Szputnyik-momentumnak nevezik a történteket – utalva ezzel arra, amikor 1957-ben a szovjetek által felküldött műhold okozott mély megdöbbenést és pánikot az USA vezetőiben és polgáraiban. Akkor a nyugati szuperhatalom megfordította az űrverseny állását. Kérdés, hogy most is képesek lesznek-e erre? (Itt jön a képbe a nemrég bejelentett Stargate Projekt, amelyről külön írunk.)
Hogyan hat a DeepSeek az amerikai-kínai technológiai hidegháborúra?
A DeepSeek megjelenése éppen ezért tovább élezi az amerikai-kínai technológiai versenyt. A cég sikerei azt mutatják, hogy Kína otthoni tehetségekkel is képes innovatív AI technológiákat fejleszteni, és ezáltal csökkenteni a függőségét az amerikai technológiától. A nyílt forráskódú megközelítés további előnyt jelent Kína számára, mivel a kínai modellek szélesebb körben elérhetővé válnak. Ugyanakkor a DeepSeek-et érheti az a kritika, hogy ha egy ilyen kínai modell nyilvános, azzal a cenzúra is megjelenhet a válaszokban, igaz, a nyugati LLM-ek számára is léteznek tabutémák és tabukérdések.
Történelmi pillanat
Liang Wenfeng, a mesterséges intelligencia területén szerzett tapasztalataival és innovatív megközelítésével a kínai (és a nyugati) mesterséges intelligencia szcéna előterébe került. A DeepSeek erőfeszítései különösen hangsúlyosak a nagy modellalkotásban, amely a kínai mesterséges intelligencia stratégiájának egyik központi eleme.
A megfigyelők a DeepSeeket már most úgy azonosítják, mint a kínai állam innovációs törekvéseinek egyik legfontosabb képviselőjét, különösen a nagy nyelvi modellek fejlesztése terén. A cég modelljei állítólag a kínai nyelv komplexitásának megértésében mutatnak előnyt, ami a globális nagy nyelvi modellekhez képest helyi előnyt jelent.
A DeepSeek további diadalmenete ezért egyben a kínai MI-innováció sikere is lesz.
Kritikusabb hangok
Érthető, hogy az MI-vel foglalkozó szakemberek tüzetesebb vizsgálatnak vetették alá a DeepSeek állításait, és néhány kifogást már most megfogalmaznak a két modellel kapcsolatban.
-
Benchmark tesztek megbízhatósága: a DeepSeek R1-et több benchmark teszten is az OpenAI o1-el egyenértékűnek vagy jobbnak állították be, különösen a matematikai olimpiai szintű matematikai és kódolási feladatok területén. Azonban kritikus hangok megkérdőjelezik ezeket az állításokat. A valóságban az R1 nem éri el az o1-preview szintjét, bár az o1-mini szintjét megközelíti, és egyértelműen felülmúlja a nyílt forráskódú modelleket. Ezek a kritikák rávilágítanak arra, hogy a benchmark tesztek eredményei félrevezetőek lehetnek.
-
Generalizációs képesség hiánya: az AIW+ és AIW Friends teszteken az R1 ingadozó teljesítményt nyújt, ami a generalizációs képesség hiányát mutatja. Ez azt jelzi, hogy a modell nem képes megbízhatóan kezelni a problémák variációit, és nem elég robusztus a valós alkalmazásokhoz. Az o1-preview viszont stabilan teljesít ezeken a teszteken, ami különbséget mutat a két modell között.
-
Túl hosszú válaszok: a DeepSeek R1 túl hosszú válaszokat generál, ami arra utal, hogy több számítási erőforrást használ fel a válaszadáshoz. Ez a tény azt is jelzi, hogy a benchmark teszteken elért eredmények nem feltétlenül jelentenek egyértelmű teljesítménybeli előnyt.
-
Érzékenység a promptokra: a DeepSeek R1 érzékeny a promptokra, és a few-shot prompting következetesen rontja a teljesítményét. Ezért zero-shot beállítás ajánlott a modell optimális használatához. A felhasználóknak közvetlenül kell leírniuk a problémát és megadniuk a kívánt kimeneti formátumot.
-
Szoftverfejlesztési feladatokban való korlátozottság: a DeepSeek R1 nem mutat jelentős javulást a DeepSeek V3-hoz képest a szoftverfejlesztési benchmarkokon. Ennek oka, hogy a nagyméretű megerősítéses tanulást (RL) nem alkalmazták széles körben ezeken a feladatokon a hosszú kiértékelési idő miatt.
-
Pontosság: bár a modellek a matematika terén jeleskednek, a DeepSeek-R1 teljesítménye az egyszerű kérdések megválaszolásában nem mindig megbízható, és néha elutasíthatja a válaszadást a biztonsági RL miatt.
A legnagyobb kritika a DeepSeek adatvédelmi adatkezelését éri. A DeepSeek ugyanis kínai szervereken tárolja a felhasználók adatait, beleértve a csevegési előzményeket, IP-címeket, billentyűleütési mintákat és eszközinformációkat. A kínai jogszabályok értelmében pedig ezek az adatok a kormányzat kérésére hozzáférhetővé tehetők, ami komoly kockázatot jelent a felhasználók magánéletére nézve, különösen azokban a nyugati országokban, ahol szigorúbb adatvédelmi normák érvényesülnek, mint például az EU GDPR-ja.
Ezen aggodalmak miatt már számos ország lépett fel a DeepSeek ellen. Olaszország például az elsők között tiltotta be az alkalmazást, miután az olasz adatvédelmi hatóság elégtelennek találta a cég válaszait az adatkezelési gyakorlatokkal kapcsolatban. Hasonló vizsgálatok indultak Franciaországban, Írországban és Belgiumban is, az EU-s adatvédelmi szabályok esetleges megsértése miatt. Dél-Koreában ideiglenesen felfüggesztették az alkalmazás letöltését, mert a DeepSeek nem felelt meg a helyi adatvédelmi törvényeknek. Az Egyesült Államokban pedig Texas állam, a Pentagon, a NASA és más kormányzati szervek tiltották meg a használatát nemzetbiztonsági és adatbiztonsági kockázatokra hivatkozva.
-
Mesterséges intelligencia a 2025-ös CES-en
-
A 113-as cikk titkai