sajtó csomag

Töltse le a Clementine bemutatkozó anyagát.

Letöltés

SAJTÓKAPCSOLAT

E-mail: Ez az e-mail-cím a szpemrobotok elleni védelem alatt áll. Megtekintéséhez engedélyeznie kell a JavaScript használatát.
Tel: +36 1 457 0561
Fax: +36 1 457 0562
Cím: 1115 Budapest,
Bartók Béla út 105-113.

A (kereső)birodalom visszavág

Vélemény

2025. január 09.

Úgy tűnt, hogy az anyahajó nem tud olyan gyorsan megfordulni. Azt láttuk, hogy az Alphabet – leánykori nevén Google – jócskán lemarad a generatív MI versenyében, míg a feltörekvő fürgék learatják a babért. Kinevettük a Bard próbálkozását, a Gemini pedig kezdetben elég csökkent képességűnek tűnt a ChatGPT-4-hez vagy a Claude-hoz képest. Most azonban a Gemini 2.0 Flash Experience és a saját videógeneráló, a Veo 2 megjelenésével a Google nem egyszerűen magasra tette a lécet, hanem megmutatta, ki a (régi-új) úr a generatív mesterséges intelligencia házánál.

A transzformertől a Gemini 2.0 Flash-ig

Persze, leginkább a kudarcokat jegyezzük meg, miközben az igazság az: a Google az elmúlt években jelentős lépéseket tett a mesterséges intelligencia területén, különös tekintettel a generatív MI modellekre. Nem véletlen, hiszen már a mérföldkövet jelentő transzformer architektúrát bemutató 2017-es „Attention is All You Need” című tanulmány is a Google Brain kutatónak nevéhez fűződött. Ez az innováció tette lehetővé a gépek számára a szövegkörnyezet hatékonyabb megértését, ami alapjául szolgált számos későbbi fejlesztésnek. Oké, de hogyhogy csak most mutatta meg a világ kedvenc keresőmotorja felett bábáskodó nagyvállalat az igazi oroszlánkörmeit? Ennek megértéséhez kicsit vissza kell mennünk az időben.

A Google AI stratégiája 2017 óta

A Google 2017-ben tűzte ki célul, hogy egy "MI-első" vállalattá válik. Ez a stratégia azt jelentette, hogy az MI-t minden termékébe integrálja, javítva a felhasználói élményt, és ezáltal új lehetőségeket is teremt. A Google célja, hogy az MI segítségével rendezze a világ információit, és elérhetővé és hasznossá tegye azokat. Magyarán az eredeti küldetése folytatódik, de már a legmodernebb eszközökkel.

Kulcsfontosságú modellek és mérföldkövek

2017: Transzformer architektúra: A Google kutatói által bevezetett transzformer architektúra forradalmasította a természetes nyelvi feldolgozást (NLP). A transzformerek lehetővé tették a modellek számára, hogy a szavak közötti összefüggést és a kontextust egyaránt figyelembe vegyék, mely a gépi fordítás jelentős fejlődéséhez vezetett. A cégnek iparkodnia is kellett, hiszen 2018-ban az akkor még kis cégnek számító OpenAI kiadta az első Generative Pre-trained Transformert (GPT-1). Ez a modell már képes volt kérdések megválaszolására és szövegek generálására, bár előfordult, hogy ugyanazokat a tartalmakat hozta létre újra és újra.

2019: BERT: a Google bemutatta a BERT (Bidirectional Encoder Representations from Transformers) modellt, amely a keresési képességeket javította azáltal, hogy a felhasználói kérdéseket kontextusban értelmezte, nem csupán izolált kulcsszavakként. A RankBrain algoritmus részeként a Google keresőjének harmadik legfontosabb rangsorolási tényezője lett.

2021: LaMDA: a Google előállt a LaMDA (Language Model for Dialogue Applications) modellel, egy beszélgető MI-vel, amely nyílt párbeszédre lett tervezve. A modell célja a természetesebb interakciók létrehozása volt. A technológia olyan/olyannyira jól működött, hogy Blake Lemoine, a projekten dolgozó egyik mérnök azt állította, hogy a LaMDA érző és lelke van (a Google elutasította ezt az állítást, és később Lemoine-t is elbocsátották).

2023: Bard és PaLM 2: a Google 2023 márciusában indította el a Bard generatív MI-eszközt, amely integrálható lett a Google szolgáltatásaival. A PaLM 2 bevezetése tovább javította a többnyelvű és következtető képességeket, és több mint 25 Google-terméket támogatott.

2024: Gemini modellek és MI ügynökök: A Google legújabb fejlesztései közé tartoznak a Gemini modellek, különösen a 2024 decemberében bemutatott Gemini 2.0 Flash. Ez a modell natív kép- és hangkimenettel, valamint eszközhasználati képességekkel rendelkezik. Emellett a Google egy MI ügynök platformot is létrehozott Google Agentspace néven, amely egyesíti a generatív MI-t és a vállalati keresést.

Úgy érthetjük meg a Gemini 2.0 jelentőségét, ha tudjuk: az új modell – minden egyes kategóriában! – letaszította a LMArena-ban elfoglalt trónjáról az iparág üdvöskéjét, a ChatGPT-4.0-t, és sokkal gyorsabb lett, mint versenytársai. A sokéves munka, a hatalmas informatikai tudás, a rendelkezésre álló erőforrás (pénz és hardver), az MI-re való fókuszálás 2024 decemberére meghozta gyümölcsét.

Kudarcok és kihívások

A Google útját nem csak sikerek, de kudarcok is szegélyezték. A Duplex 2018-as bemutatása, egy emberi hanggal rendelkező AI asszisztens demója, ellenérzéseket váltott ki etikai kérdések miatt. A Gemini képalkotó képességét kritika érte, amikor nem volt hajlandó fehér embereket ábrázolni, és pontatlan képeket generált történelmi személyiségekről.

A Google-t emellett azért érte (jogos) kritika, hogy lemaradt a generatív MI versenyben az OpenAI-jal szemben. A ChatGPT megjelenése a közvélemény figyelmének középpontjába került, és a Microsoft is komoly versenyzővé vált az OpenAI-jal kötött partnersége révén. A Google-nek fel kellett gyorsítania a termékfejlesztési folyamatait, és a kockázatvállalás mértékét is "újrakalibrálta", hogy lépést tudjon tartani a versenytársakkal.

Gemini 2.0 Flash: egy hatalmas dobás

A nemrég elérhetővé tett Gemini 2.0 Flash egy kísérleti modell, amely alacsony késleltetés mellett kínál nagy teljesítményt. A modell képes natív kép- és hangkimenetre, támogatja a többféle bemenetet, és más eszközöket, például a Google keresőjét is használni tudja. A Gemini 2.0 Flash elindítása azt mutatja, hogy a Google komolyan veszi az MI-ügynökök fejlesztését, amelyek önállóan képesek feladatokat elvégezni a felhasználó felügyelete mellett. A Deep Research funkcióval a Gemini 2.0 Advanced felhasználói kutatási asszisztensként használhatják, komplex témákat fedezhetnek fel vele, és jelentéseket állíthatnak össze.

A Google tervei szerint a Gemini 2.0 képességeit számos termékébe integrálja, beleértve a keresőt is. Az AI Overviews funkció, amely már 1 milliárd felhasználót ér el, a Gemini 2.0 segítségével összetettebb témákat és többlépcsős kérdéseket is képes lesz kezelni. A Gemini 2.0 kulcsszerepet játszik a Google azon törekvésében, hogy egy univerzális asszisztenst hozzon létre, amely az élet számos területén segítséget nyújt a felhasználóknak.

A mondás igaz: az nevet, aki utoljára nevet.