Skip to main content

Színes

sajtó csomag

Töltse le a Clementine bemutatkozó anyagát.

SAJTÓKAPCSOLAT

E-mail: Ez az e-mail-cím a szpemrobotok elleni védelem alatt áll. Megtekintéséhez engedélyeznie kell a JavaScript használatát.
Tel: +36 1 457 0561
Fax: +36 1 457 0562
Cím: 1115 Budapest,
Bartók Béla út 105-113.

Búcsú a szavaktól, irány a valóság: érkeznek a világmodellek

Búcsú a szavaktól, irány a valóság: érkeznek a világmodellek

2026. március 04.
Sokak szerint a mesterséges intelligencia fejlődése 2026 elején elérkezett a tisztán nyelvi alapú rendszerek korlátaihoz, átadva a helyet a fizikai valóságot szimuláló architektúráknak.

A generatív AI-buborék nem pukkant ki, de érezhető egyfajta kijózanodás. A kutatók egy része felismerte, ami persze természetes: a statisztikai szómegjóslás nem egyenlő a valódi intelligenciával. Ez az írás röviden bemutatja az LLM-ek utáni korszakot meghatározó világmodelleket, amelyek már nemcsak beszélnek a valóságról, hanem értik a fizika törvényeit is.

 

A nagy nyelvi modellek strukturális és kognitív korlátai

Az LLM-ek kognitív korlátai 2026-ra nyilvánvalóvá váltak, hiszen ezek a rendszerek csupán a legvalószínűbb következő tokent generálják a System 1-típusú, reaktív gondolkodásmóddal. Az Apple kutatói által publikált, nagy port felvert tanulmány bebizonyította, hogy a komplexitás növekedésével e modellek pontossága összeomlik. Ennek oka, hogy hiányzik belőlük a megalapozottság, vagyis a fizikai valósághoz kötött szenzoros tapasztalat, ami nélkülözhetetlen a világ megértéséhez. A Moravec-paradoxon szerint míg a gépeknek könnyű a szimbolikus logika, a legegyszerűbb fizikai manipuláció, például egy macska ügyessége, megoldhatatlan feladat számukra. Az orvosi diagnosztikában is kudarcot vallanak, mert a statisztikai korrelációt gyakran összetévesztik a valódi fizikai kauzalitással, ami hallucinációkhoz vezet. Végül a perzisztens memória hiánya miatt képtelenek a globális tervezésre, így egy úthálózat minimális változása is teljesen megzavarja a navigációjukat.

 

A Meta esete YannLeCunnal

A paradigmaváltás leglátványosabb jele YannLeCun, a Turing-díjas kutató 2025 végi távozása volt a MetaPlatformsChief AI Scientist pozíciójából. LeCun szerint az LLM-ek zsákutcát jelentenek az általános mesterséges intelligencia felé vezető úton, a vállalat vezetése azonban a rövid távú piaci sikereket választotta. A szakítás után LeCun megalapította az AMI Labs startupot, hogy a Szilícium-völgy „nyelvi monokultúrájával” szemben a fizikai intuícióra épülő rendszereket fejlesszen.

 

Szakmai konszenzus a világmodellek szükségességéről

LeCun víziójával az iparág más óriásai is egyetértenek. Többek közt DemisHassabis, a Google DeepMind Nobel-díjas vezetője is úgy véli, az LLM-ek önmagukban elégtelenek a jövő intelligens rendszereihez. Az ugyancsak legendás YoshuaBengio és mások is hangsúlyozzák a világmodellek szükségességét. Ezt a trendet igazolja a World Labs 230 millió dolláros tőkebevonása és Jeff Bezos „Project Prometheus” nevű, fizikai MI-re fókuszáló kezdeményezése is.

De mire fel ez a paradigmaváltás?

 

A világmodellek (World Models) elméleti alapvetései és definíciója

A világmodell definíció szerint egy olyan belső szimuláció, amely egy adott állapotból és cselekvésből megjósolja a környezet következő fizikai állapotát. Az elmélet Kenneth Craik 1943-as elképzeléséig nyúlik vissza, aki szerint az idegrendszer a valóság kisméretű modelljeként működik, lehetővé téve a veszélytelen mentális próbálkozásokat. A modern megközelítés lényege, hogy a rendszer ne szabályokat magoljon be, hanem a videó- és szenzoros adatokból magától ismerje fel a gravitációt vagy az objektumok állandóságát.

 

Világmodell a gyakorlatban

A technológiai élvonalban a JEPA (JointEmbeddingPredictiveArchitecture) modellek állnak, amelyek nem pixeleket generálnak, hanem absztrakt látens térben mérik az állapotok kompatibilitását. Ez a módszer teszi lehetővé, hogy az AI ne csak papagájként ismételje a szavakat, hanem ténylegesen értse a világ fizikai összefüggéseit anélkül, hogy elveszne a pixelek zajában.

Hogyan működik a JEPA? A modell folyamatosan összeveti a belső jóslatait a beérkező adatokkal. Ha a jóslat és a valóság között túl nagy a távolság a matematikai térben, a rendszer ezt bizonytalanságként éli meg. Ez a bizonytalansági mutató a metakogníció technikai megfelelője. Ilyenkor a gép érzi, hogy az adott területen nincs elég tudása, ezért óvatosabb lesz, vagy több adatot kér a környezetéből a döntés előtt. A 2025-ös SIGReg algoritmus áttörése megszüntette a korábbi instabil matematikai trükköket, lehetővé téve a modellek hatékony és stabil skálázását. Ez az architektúra a System 2-típusú gondolkodással belső keresést és tervezést végez, ami a világmodellt valódi jövőszimulátorrá emeli. Mit jelent mindez? Az első technológia (SIGReg) stabilabbá és nagyobbra építhetővé teszi az AI agyát, a második (System 2 mechanizmus) pedig megtanítja arra, hogy ne csak beszéljen a világba, hanem tervezzen és jósoljon, mielőtt megszólalna.

 

LLM vs. világmodellek teljesítménye

Míg a tisztán nyelvi és matematikai teszteken az LLM-ek elérték a teljesítőképességük felső határát – illetve a normál mérőszámokat is egyre feljebb kell tolni – a fizikai intelligenciát mérő benchmarkokon elbuknak. A 2025-ben publikált RBench-V vizuális érvelési teszten az OpenAI o3-as modellje mindössze 25,8 százalékos pontosságot ért el az emberek 82,3 százalékával szemben. Ezzel szemben a világmodellekkel kiegészített rendszerek, mint a RAP-keretrendszer, 33 százalékkal teljesítik felül a GPT-4 tervezési képességeit. A mérések szerint az intelligencia mérése eltolódott a statikus válaszoktól a dinamikus, térbeli problémamegoldás irányába.

 

Ipari megvalósítások és esettanulmányok

NVIDIA Cosmos:20 millió órányi videóból tanult fizikát, és most fizikailag pontos szintetikus adatokat generál robotok betanításához. A vizuális környezetet és a szöveges utasításokat szorosan összekapcsolva teszi használhatóvá az ipari alkalmazások számára.

Google DeepMindGenie 3: ez az interaktív világmodell 24 fps sebességgel képes navigálható 3D környezetet létrehozni, miközben egyperces memóriablakkal küszöböli ki a videógenerálási amnéziát. A Genie 3 teljesen önállóan sajátította el a fizikai szabályszerűségeket, támogatva a komplex tudományos felfedezéseket végző ágenseket.

World LabsMarble: a világhírű Fei-Fei Li platformja szöveges leírásból vagy 2D fotóból konzisztens, navigálható 3D-s világokat generál a kreatív ipar számára. A Marble natív exportlehetőséget kínál az UnrealEngine és Unity környezetekbe, forradalmasítva a digitális téralkotást.

 

Kihívások és kritikák

De itt sincs kolbászból a kerítés.

A világmodellek implementációja elképesztő GPU-kapacitást és memóriasávszélességet igényel, ami a hűtési technológiák és az energiafogyasztás terén is fenntarthatósági kérdéseket vet fel. A kritikusok szerint a JEPA-architektúra még mindig statikusabb a biológiai agy hierarchikus hálózataihoz képest, hiányzik belőle a valódi ön- és testtudat. Sokan úgy vélik, hogy a tervezési folyamatok valójában emberi mérnökök által előre kódolt logikai korlátok, nem pedig autonóm módon tanult metakogníció.

 

A jövő felé

A Stanford HAI elemzése szerint 2026-ban még biztosan nem érjük el az AGI-t, mivel a nyelvi modellek fejlődési görbéje az adathatárok miatt ellaposodott. A hangsúly az AI-szuverenitás felé tolódik, ahol a nemzetállamok saját világmodelleket építenek a globális  - főleg amerikai – technológiai oligopóliumoktól való függőség csökkentésére. Az orvostudományban a prediktív világmodellek hozzák el a ChatGPT-pillanatot, lehetővé téve például a tumorok növekedésének szimulációját és kontrafaktuális műtéti tervezést. Ez utóbbi megközelítés lehetővé teszi, hogy a sebész virtuálisan elkövesse a hibákat és tanuljon belőlük, vagy felfedezze a legjobb megoldást, még mielőtt a szike hozzáérne a beteghez.

A mesterséges intelligencia fejlődése a puszta szóalkotástól a valóság szimulációja felé fordult, megnyitva az utat egy biztonságosabb és logikusabb ipari automatizáció előtt. Az intelligencia jövőjét azok a rendszerek jelentik, amelyek a világot belső, kauzális térben, mélységében meg is értik.