Büszkeség projektünk, a nemrég bemutatott Elvira robotasszisztens híre futótűzként járta be a magyar médiát. Legutóbb a 24.hu főoldalán adtak hírt az innovációról és tesztelték is a fejlesztést.
Adrián Zoltán / 24.hu
Elvira, a MÁVDIREKT ügyfélszolgálatát támogató robotasszisztense egyszerre akár 10 érdeklődő belföldi menetrenddel kapcsolatos kérdéseire is tud válaszolni. Alapja a cégünk által fejlesztett Hanga virtuális ügyfélszolgálati munkatárs, amit a MÁVSTART igényei szerint alakítottunk át.
Kattints, és olvasd el a fejlesztői csapattal készült interjút és azt, hogy milyen jól sikerültek a szerkesztőség teszthívásai!
A zene szinte magától értetődően az a terület, amely jó alapanyaga lehet a mesterséges intelligenciának, a mélytanulási rendszereknek: egyértelmű mintázattal rendelkezik, amelyet könnyen át lehet fordítani matematikai és statisztikai nyelvre. Mégis, a kezdeti lépések után itt is a generatív MI berobbanása kellett, hogy a zenészek is beállhassanak az „MI elveszi a munkánkat” egyre népesebb, és sajnos egyre realistábbnak tűnő kórusába.
A test nélküli J-Pop
2004 elején, egy közös kutatási projekt eredményeképp adta ki a Yamaha Corporation a Vocaloid nevű szoftvert. A zenei program előre szintetizált emberi énekhangok manipulációját tette lehetővé. A történet itt azonban nem ért véget: bárki beírhatott dalszöveget is, amelyet a Vocaloid elénekelt (ma már angol, japán és koreai nyelven is). Így egyszerűbb a sztárcsinálás, gondolták a sapporói Crypton Future Mediánál, akik 2007-ben a technológiára „ráültették” Hatsune Mikut, aki új virtuális énekesként lépett elő. A speciális vetítéssel koncerteket adó figura a leírások szerint egy 16 éves, 158 centiméteres, 48 kilogramm tömegű lány, akinek még a hangterjedelmét is meghatározták. Hatsune Miku azóta gyakorlatilag a japán popkultúra jeles képviselőjeként még olyan rangos, külföldi eseményeken is „fellépett”, mint például a legendás Coachella fesztivál. (Érdemes szétnézni a virtuális lény / lány YouTube-csatornáján.)
Gép + ember a Beatles stílusában
2016-ban a Sony CSL Research Laboratory kutatói lepték meg a világot az első, MI által (is) létrehozott popdallal. A Flow Machines algoritmust popdalok tízezreivel „etették”, így a rendszer mélytanulással feltérképezte az egyes zenei előadókra jellemző stílust, tempót, váltásokat, dallamokat és ritmusokat. Ebből választották ki a Beatles stílusát, és a Flow Machine egy új dallamot generált. 2016-ban azonban még nem tartottunk ott, ahol ma, így francia zeneszerzők, Benoit Carré és François Pachet alakították véglegesre a dalt, és a szöveget is ők írták a keresztségben Daddy’s Car címet kapó dalhoz.
Azóta egy 15 nagyon különböző stílusú dalt tartalmazó, Hello World című albumot is kiadtak a Flow Machine projektfelelősei, méghozzá a SKYGGE nevű művész bábáskodásával (tehát még nem teljesen automatizálták az alkotási folyamatot). Az album itt meghallgatható.
Sláger, ami sose volt
2023 szeptemberében érkezett a meglepő hír: Grammy-díjra szeretnék jelölni a Drake és a Weeknd művésznevű énekesek kollaborációját, a Heart on My Sleeve című dalt. A gond csak az volt, hogy a popszámhoz az említett két előadónak semmi köze nem volt – annál inkább a generatív MI-t használó, titokzatos, Ghostwriter fedőnevű alkotónak. A technológiai kérdés mellett itt már előjön egy mélyen emberi kérdés: vajon ki az alkotója az ilyen daloknak? Az egyik ottani szakmai szervezet szerint kétségkívül egy ember (a szövegét mindenképp ő írta, a kórusokat pedig az MI hozta össze), tehát a dal jelölhető. (Végül más okok miatt a Grammy nem jöhetett össze).
Nekünk, magyaroknak sincs szégyenkeznivalónk ezen a területen. 2024 januárjában jelent meg a videómegosztókon az AZAHRIAH x SZOBOSZLAI - Azi meg a Szobó (AI VOICES, MIND1 COVER), MI által generáltatott zeneszám. A később magát csak „Frontemberként” aposztrofáló, maszkban és eltorzított hangon nyilatkozó anonim készítő elmondta, hogy ezen a dalon kívül „igyekszünk majd olyan embereket mikrofon elé állítani virtuálisan, akik a való életben valószínűleg nem fognak rappelni vagy énekelni.” A hírek szerint a jelenlegi legnépszerűbb magyar dalszerző, előadó, Azahriah nem rajong a nevét (és hangját) felhasználó, mára már a kétmillió megtekintést is átlépő álszerzeményhez.
Jönnek a zeneszerző alkalmazások!
A jövő pedig elkerülhetetlennek tűnik ezen a területen. A nagyok, így a Meta vagy a Google már bemutatták a maguk zeneszerző mesterséges intelligenciáit, amelyek nagyon ígéretesnek tűnnek már most is. A promptból dalt szerző gépi megoldások némelyikét már a piac teszteli. Ilyen a Casette AI is, amely már több mint 50 000 aktív felhasználóval büszkélkedhet, de korlátai még egyértelműek. A freemium modellben elérhető alkalmazás ugyanis képes nagyon inspiratív, továbbgondolásra érdemes zenéket szerezni a legváltozatosabb stílusokban és műfajokban, de az ember által szerzett (könnyű)zene finomságaihoz még mindig emberi kéz kell. Pont az történik tehát, amit a szöveggenerálásnál is egy író vagy marketinges is megtapasztal.
Ez a helyzet azonban csak a jelenre, 2024 első negyedévére igaz – milyen eszközeink lesznek majd vajon egy vagy két év múlva? Talán annál is jobb, amellyel életre keltettek 2023 végén egy 1966 óta szunnyadó Beatles-dalt, a mélytanuló rendszernek köszönhetően először hallható Now and Then-t?
Az igazán disztópikus borzongásra vágyóknak végezetül a teljes egészében, tehát zene, szöveg és előadó, valamint klip tekintetében is mesterséges klipet ajánljuk a beszédes nevű Anna Indiana (AI) nevű „előadótól”.
Ismeretes, hogy a Disney Studios a szemkápráztató, lélegzetelállító látványvilág megteremtésének nagymestere. A napi munka túlhevült tempójában sajnos nem minden projektre jut elég idő és számítási kapacitás, így a nagy film- és sorozatgyártási láz eredményeként számos olyan számítógép által generált grafika és mozgókép lát napvilágot, melyeket már a kétezres években is közröhej tárgyaként ünnepelt volna a nagyérdemű.
Az Arc-varázs történet a Jégvarázshoz hasonlóan csodával határos képességeket mutat be, Elza hercegnő szerepét azonban mesterséges intelligencia megoldások veszik át, a fagy és jég manipulálása helyett a digitális illúziók árnyékában szerepüket játszó színészek életkorának mesterséges intelligencia általi változtatása kerül középpontba.
Szakavatott körökben ismert tény, hogy 3D modellezési megoldásokkal elképesztő jó minőségben lehet a színészek arcának minden jellemzőjét manipulálni. A legkorszerűbb, megbízható megoldások azonban rettentő idő- és erőforrás igényesek, ezért, jellemzően „csak” a képernyőidőt dominánsan birtokló személyen alkalmazzák – a „hős mozik”.
Szükség van egy idő- és energiagazdaságos középútra, ami 2D képeken képes a színészek életkorának változtatására. Itt ismét teszünk egy rövid kitérőt a gyerek-felnőtt időskálán történő változtatásra, szintén van megoldás, de azt 2D formátumra rádolgozni egy teljesen másik projekt.
Meg is kaptuk az Arc-varázs forgatókönyvének központi témáját: 18-65 év közötti színészek életkorának változtatása, mesterséges intelligencia megoldások segítségével. Ejh! Nem nagy dolog: itt van a telefonomon mindjárt három alkalmazás, öregít – fiatalít – szépít. Kérdezhetnénk, mi ebben a kihívás? A kérdés precízen megválaszolható pár ezer oldalnyi szakmai anyag áttekintésével, de sajnos több kérdést vet fel, mint amennyit megválaszol, és innen már nem elég szakmai anyagokat elolvasni, kísérletezni kell. Ezen tanulmányozás és kísérletezés, boszorkányos összetettségű mesterséges intelligencia programozás eredménye a Disney Studio FRAN rendszere. A rendszer kialakításának kihívásait összegyűjtve kaphatunk egy frappáns forgatókönyv vázlatot az Arc-varázs történetünkhöz.
Csapó 01 – „Tiéd ez a fénykép 2053-ból?”
A tanuló mesterséges intelligencia algoritmusoknak adat kell. Így 2022-ben lehetetlen 4k minőségben egy 30 éves színészről 18 éves korából fotót szerezni, megfelelő minőségben, de ennél nagyobb kihívás a jövőbeli énjéről fotót találni. Generálni kell tehát, méghozzá ipari mértékben.
Csapó 02 – „Steve! Ne a kamerába nézz, hanem fel-balra!”
A telefonos időgép-alkalmazások szép munkát végeznek szemből. De ha elfordítjuk a fejünket, akkor pár pillanat után figyelmeztetnek, hogy a kamerába nézzünk. Megoldást kell találni a 3D modellezés nélkül a különböző szögekben öregítendő arcokra.
Csapó 03 – „Steve! Mosolyogj már, ha mondom!”
Az MI-algoritmusnak készen kell állnia a különböző arckifejezéseken történő öregítésre. A dinamikusan keletkező ráncok, mosoly, fej- és alaktorzulás számos kihívást rejt magában.
Csapó 04 – „Esti jelenet, kérjük, kerüljék a fény használatát!”
Nem egyszerűen arcot öregítünk különböző szögekben, a fény és árnyék játékára is figyelemmel kell lenni, nem beszélve azok különböző színeiről.
Csapó 05 – „Steve, figyelj már … a harmadik jelenetnél, az te vagy?”
Az álló kép világából a mozgó kép világába átmenet a fenti problémákon túl felveti azt a problémát, hogy a másodpercenkénti 30 képkockán, végig egyenletesen ugyanazon arcnak kell lennie. Nem minden alkalmazás képes megfelelő minőségben tartani a fő arcvonásokat.
Csapó 06 – „Vannak bogarak ebben a jelenetben?”
A mesterséges intelligencia beavatkozása egy képbe nem egyszerű folyamat, amennyiben hibázik, akkor képernyőhibák jönnek létre, változó színben és minőségben.
Csapó 07 – „Valaki tegye vissza a mozgási elmosódást a képre”
A fiatalító – öregítő algoritmusnak tudnia kell kezelni a fókuszt és a gyors mozgásból eredő képernyőeffekteket (motion blur), ezeket nem változtathatja meg.
Csapó 08 – „Ez szépen öregít, de ez meg jobban kezeli a dinamikus szarkalábat”
A mesterséges intelligencia algoritmusok kombinálása vezet gyakran a legjobb megoldáshoz, ezek együttes alkalmazása, azonban szép technológiai kihívás. (a képen látahóak az alkalmazott technológiák nevei, az „ours” érték a Disney Studios FRAN megoldását jelöli)
Csapó 09 – „Szerintem ott nem kellene még öregedni”
A telefonos megoldásokkal szemben az öregítő algoritmusok finomhangolhatóak, gyakorlatilag arc tájra vonatkozó részletességgel – nem beszélve arról, hogy a korral például nő a férfiak füle!
Extra jelenet – „A sminkesek, fodrászok és úgy mindenki MARAD.”
Az kor változtató algoritmus csak egy komponense az Arc-varázslatnak, az életkor és élethelyzet művészi beállítása (korhű frizura, smink, ruházat) a kiindulási alap, ezt a kellékes munkát egészíti ki a FRAN. Nem veszi el a mesterséges intelligencia a stáb munkáját.
Forgatókönyv: kész! A technológiai részleteket kedvelőknek az alábbi linken elérhető a Disney Studio részletes dokumentációja.
Ahogy egy korábbi blogbejegyzésünkben bemutattuk, a mesterséges intelligencia egyre nagyobb szerepet kap a világ sportjaiban. Ennél azonban azóta már többre képes. A jelenleg is zajló 2024. évi párizsi olimpiai játékok magabiztosan él az MI adta lehetőségekkel, és ebből mind a sportolók, mind az őket lélegzetvisszafojtva nézők is sokat profitálnak. Erre mutatunk cikkünkben néhány példát.
Lásd a lényeget
A keresőóriás már korábban együttműködési szerződést kötött az NBC csatornával és az amerikai olimpiai csapattal. A Google természetesen nem csupán keresésekkel segíti a Team USA-ra kíváncsi nézőket: a mesterséges intelligencia segítségével sokkal többet kínál. Az olimpia előtt megszellőztetett riportokban a két cég képviselői elmondták, milyen széles körű kollaborációt jelent ez a Google termékei számára: például, ha az NBC kommentátora, Leslie Jones új sportágat tanul az olimpia idején, akkor a Google Gemini nevű generatív MI-chatbotjához fordul. De ugyancsak a Gemini segít ütemezni a mérkőzések nézési idejét, a Google Térkép 3D-s modelljei Párizst mutatják be fotórealisztikus módon, de terveztek egy „One Day in Paris” című késő esti adást, amelyben a Google Lens segítségével lehet felfedezni a francia fővárost.
Ez egy új típusú kollaboráció, hiszen a nagy múltú amerikai csatornának be kell építenie a hagyományos működésébe a mesterséges intelligencia adta lehetőségeket.
Az NBC saját streamingszolgáltatása, a Peacock jó példa az MI-élményre: személyre szabott napi összefoglalókat nézhetnek meg az előfizetők, amelyeket a legendás, idén nyolcvanéves kommentátor, Ai Michels hangján hallgathatnak meg.
Csetelő atléták
De mi van azokkal, akik az első számú főszereplői a szinte folyamatos közvetítéseknek? Nekik is jó hírt jelent az MI. Itt van például a Nemzetközi Olimpiai Bizottság saját alkalmazása, az Athlete365, amely egy rendkívül praktikus információforrás az atléták számára. Ebbe az appba került most bele az AthleteGPT, amely nevéhez méltóan intelligens chatbotként segíti őket, hogy a helyszínekkel, dátumokkal, logisztikával kapcsolatos kérdéseikre bármikor, a nap 24 órájában azonnal választ kaphassanak.
Hatékonyabb rendezés
Az olimpia szervezői amellett, hogy például az energiahatékonyság monitorozásában is MI-t használnak, technológiai partnerükkel, az Intellel még többet tesznek az optimalizálás érdekében. A digitális iker megoldással – vagyis a valódi helyszínek virtuális szimulációjával – sokkal jobban tervezhetők az események. Ez nemcsak az energetikára, de a kamerák elhelyezésére vagy a megközelíthetőségre is igaz. Az eddig jellemzően gyári környezetben használt, az Ipar 4.0 egyik eszközének tartott digitális iker tehát újabb, innovatívabb felhasználási módját ismerhetjük meg.
A Nemzetközi Olimpiai Bizottság egy másik partnere, a kínai Alibaba pedig rekordszámú többkamerás visszajátszó rendszert biztosít mesterséges intelligencia alapú, kiváló minőségű rekonstrukcióval a felhőben.
Szenzorok mindenfelé
A 2024-es párizsi olimpiai játékokon az OMEGA immár a 31. alkalommal hivatalos időmérő. Az OMEGA MI-elemzése például a műugrás, az atlétika és a művészi torna területén lehetővé teszi a nézők számára, hogy jobban megértsék a sportolók mozgását és biomechanikáját. Emellett a műugrásban – az ígéretek szerint – továbbfejlesztett adatképeket láthatunk, amelyek új információkat szolgáltatnak az egyes sportolók teljesítményéről a levegőben és a vízbe éréskor. A mesterséges intelligencia alapú mozgáskövető technológia segíteni fogja a kommentátorokat és a nézőket abban is, hogy nyomon követhessék a sportolók helyzetét a következő sportokban: kenu, maraton, gyaloglás, kerékpáros országúti verseny és időfutam, kerékpáros hegyikerékpár, maratoni úszás, evezés, vitorlázás és triatlon.
Körmendi György, a Clementine ügyvezetője a Jazzy Rádió Business Class műsorának vendége volt.
„Elvira egy fogalom, mindenki ismeri” – ez a mondat hangzott el a beszélgetés legelején. És már beszélgethetünk is vele, hiszen a MÁV robotasszisztensével egy mindenki számára egyszerűen használható rendszert alkotott meg a Clementine.
Elvira létrejöttéről, fejlesztéséről, sőt még a névnapi köszöntéséről is szó esett a Jazzy műsorában. Mekkora megtakarítást jelent a megrendelő cégnek egy ilyen fejlesztés bevezetése? Mit jelent az, hogy folyamatos fejlesztést igényel a rendszer?
Miután február 3-án Magyarország egyik leghallgatottabb rádióműsorának három műsorvezetője élő adásban tesztelte a MÁV robotasszisztensét, Elvirát, aki hősiesen állta is a sarat, ő sem hagyhatta válasz nélkül az elhangzott dicséreteket.
A fejlesztőin és a MÁV-on keresztül üzent Balázséknak, amit a február 8-i reggeli adásban be is játszottak, sőt reagáltak is rá. De hogy mi volt az üzenet és miért tervezik, hogy névnapján felköszöntik Elvirát? Az adás vonatkozó részéből kiderül.
Amikor szakértők azt állítják, hogy a mesterséges intelligencia térnyerése szinte minden területen várható, akkor ez alól az éves szinten csaknem 500 milliárd dolláros forgalmú szépségipar sem kivétel. Az MI kiválóan felhasználható az eddig algoritmusokkal kevésbé hírbe hozott területeken is.
Digitális szépségtanácsadók
Beautytech – már maga az elnevezés sem tegnap született. A digitális kor hajnalán, még az okostelefonokon és a szélessávú mobilkapcsolatokon innen, 1998-ban a New York Times már tesztelt úgynevezett „virtuális szépségápolási számítógépes programokat”. Ezek a mai szemmel kezdetlegesebbnek mondható alkalmazások lehetővé tették a felhasználók számára, hogy a saját fényképüket feltöltve digitálisan kipróbálhattak új frizurákat, kozmetikumokat és kiegészítőket. Annak idején nagy szónak számított a többszáz frizura, kozmetikai árnyalat interaktív kipróbálása. Az egyik ilyen, CD-ről betölthető termék mögött egyenesen az egyik leghíresebb női magazin, a Cosmo(politan) állt. A kísérletezés, a szoftver + szépség kombinációja akkor réspiaci jelenség maradt, és egészen a modern MI-kor hajnaláig kellett várnunk arra, hogy a jelenség új erőre kapjon.
A szépségipar lehet mesterséges
Amikor a ChatGPT publikussá tételével felkapaszkodtunk a generatív mesterséges intelligencia másfél éve száguldó vonatára, nyilvánvaló lett a fejlesztők számára: az MI és a szépségipar frigye az égben köttetett – vagyis nagyon is jól használható egy addig a technológiai által (fogyasztói szinten) jobbára érintetlen területen is.
A genAI egyrészt képes a személyre szabott elemzésre és tanácsadásra, kiváló chatbotokat lehet vele építeni, a gépi látás fejlődése új távlatokat nyit a „hogy néznék ki más sminkkel”-típusú kérdések esetében, illetve – a gyógyszerkutatásokhoz hasonlóan – az új termékek előállítása is hatalmas segítséget kapott az MI elterjedésével.
Nézzünk ezekre néhány példát!
A francia óriás és az MI
Az elmúlt évben 40 milliárd eurónyi éves forgalommal rendelkező, jól ismert L’Oréal már évek óta szorgos befektetője a beutytechnek. 2022-ben például a New Jersey állambeli Clarkban egy hight-tech kutatási központot létesített. De még ennél is többet tettek: létrehozták a cégen belüli CREAITECH-et, amely egy úgynevezett „generatív MI beauty Content Lab”, vagyis a fejlesztéseknek dedikált technológiai akcelerátor. A számos nagy nyelvi modellt használó kutatórészleg már több, MI-vel megszületett terméket mondhat magáénak. Ilyen például a Kiehl’s Derma-Reader, amely egy futurisztikusan kinéző orvosi berendezésnek tűnik. E készülék a bőrproblémák nyolc területét méri fel, elemzi a bőr felszínét és a felszín alatti bőrfelületet. Amint észleli a problémát, a felhasználó személyre szabott formulákat kap bőrének kezelésére és korrekciójára.
A nemes egyszerűséggel csak L'Oréal Paris Beauty Genius névre keresztelt, generatív MI-alapú személyes szépségápolási asszisztens a hét minden napján, 24 órában elérhető. A chatbot a L'Oréal Paris hatalmas tudásbázisát hasznosítva a hajápolás, hajfestés, smink és bőrápolás területén ad tanácsokat, hogy a felhasználók még jobb döntéseket hozhassanak. Személyre szabott diagnosztikára is használható, például szelfi alapján bőrproblémák elemzésére és ezen alapuló tanácsadásra.
Érdekesség, hogy a L'Oréal-csoport egyébként a kozmetikumok jövőjét a mikrobiom technológiát alkalmazó, személyre szabott bőrápolási termékekben képzeli el.
Virtuálisan tökéletes
A mesterséges intelligencia az esztétikusan gyönyörű, perszonalizálható kinézetű emberek világát sem hagyja változatlanul. Míg az egykor ismertebb celeb, Paris Hilton például Halloween-partit szervezett az Urban Decay kozmetikai márka támogatásával a Roblox multiverzumában, addig a Ready Player Me nevű platform lehetőséget kínál arra, hogy saját, videojátékban használható avatárt alkossunk. Ha mindehhez hozzátesszük, hogy a csak virtuálisan létező Lil Miquela influenszer 2,5 milliós követőtáborral rendelkezik, akkor megállapíthatjuk: a technológia alaposan kitágítja a szépségről vallott eddigi felfogásunkat, és új lehetőséget nyújt az önkifejezésre.
A legfontosabb technológiai esemény a Föld bolygón. Ezzel a szlogennel hirdeti magát a hagyományosan év elején, Las Vegasban megtartott szórakoztatóelektronikai show. Az itt felbukkanó, számos iparágra kiterjedő fejlesztések, prototípusok mindig az adott évek korszellemét tükrözik. Persze, hogy idén az MI-alapú felhozatalé volt a főszerep – ebből mutatunk be három izgalmas innovációt.
Csevegj a mellékszereplővel!
A chiptervezés nagyágyúja, a generatív MI iránti érdeklődés egyik hatalmas nyertese az Nvidia. Az amerikai cég, amely a mesterséges intelligencia történelmének is már az egyik fontos szereplője, idén is megvillantotta jövő iránti elkötelezettségét.
Az Nvidia Avatar Cloud Engine (ACE) for Games egy olyan modell, amellyel a játéktervezők az eddigiekben passzívabb karaktereit is élettel tölthetik meg. A nagy nyelvi modellekkel a karakterek egyedi háttértörténetet kapnak, élő, emberi beszédre is intelligensen fognak reagálni, és az arcanimáció terén is előrelépés történt.
Ha eddig féltünk attól, hogy a modern videojátékok addiktívak, nos, akkor várjuk meg, milyenek lesznek az MI-vel!
Parkol az MI
Több érdekes újdonságot mutattak be az autóipari szereplők. Az egyik izgalmas fejlesztés a BMW nevéhez fűződik, amely az iX xDrive, egyébként nálunk is kapható modelljét turbózza fel. A Remote Valet Parking rendszer lényege, hogy a zsúfolt városi közlekedés egyik bosszantó hozományát, a parkolást könnyíti meg. Négy lézerszkennere körbevizsgálja az autó környezetét, és azonosítják az akadályokat, például a gyalogosokat vagy a parkolóház oszlopait.
Ennek köszönhetően a villanyautók vezetői beavatkozás nélkül képesek a városi környezetben megtalálni a parkolóhelyeket. Szintén a Remote Valet Parking része az Amazon nagy nyelvi rendszerére épülő Alexa által támogatott, generatív MI megoldása, az Intelligent Personal Assistantis, amellyel hangutasításokkal lehet irányítani az autót, így a parkolást is. A jövő a német gyártó szakemberei szerint az ember-MI párbeszédére, interakciójára (is) épül.
(Bár ez a koncepció futurista szemmel még mindig elmarad az ugyancsak a CES-en, egyelőre csak animáción kínai Xpeng Aeroht 2025-re ígért repülő autójától.)
Csendes éj
Míg pár esztendeje a technológiai közbeszédben az „okos” kezdetű tárgyak álltak a hype középpontjában, ma ennek szerepét az MI vette át. Így az sem véletlen, hogy a CES-en is látott, egyébként számtalan díjjal elhalmozott Motion Pillow egy mesterséges intelligenciával működő párna (az eredeti szövegben: airbag, vagyis légzsák), amely a bosszantó és egészségkárosító hatású horkolást kívánja mérsékelni.
Az MI szerepe itt az, hogy egy érzékelővel horkoló ember zaját felismeri, és a párnát aszerint fújja vagy ereszti, ahogy ezek a zajok csökkennek. A fej elhelyezkedését ugyanis álom közben módosítja fizikailag is, szabaddá téve a légutakat, amely a horkolásmentes alvás egyik előfeltétele.
Ez a potom 700 amerikai dollárba kerülő „készülék” a CES innovációs díját nyerte el az intelligens otthon kategóriában.
Az LLM-helyzet egyre csak fokozódik. Nem elég, hogy a kínaiak a Qwennel egyre agilisabb versenyzővel jelennek meg a ringben, a ChatGPT még mindig tartja vezető pozícióját (és már az o1 változatnál jár) – új trónkövetelők felbukkanására is bizton számítani lehet. Közéjük tartozik a Reflection modell is: ennek rövid tündöklése és bukása jól mutatja, hogy még a szakemberek sem tudják magukat kivonni a hype és a felületesség jelensége alól.
2024 szeptember 5.: a szenzáció
Matt Shumer, az írásban segítő generatív mesterséges intelligenciára épülő megoldás, a HyperWrite AI vezére bejelenti: Reflection 70B néven létrehozták a világ eddigi legjobb nyílt forráskódú LLM-rendszerét. Ez hatalmas teljesítménynek számít a kis, New York-i startuptól! A termék ígérete az általuk csak Reflection-Turing névre keresztelt technológia, amely gyakorlatilag a nagy nyelvi rendszerek hibáját, a hallucinálást oldja meg folyamatos korrekcióval. Magyarán: mielőtt a felhasználó a promptjára választ kapna, azelőtt a Reflection „reflektál” a saját maga által javasolt kimenetre, és ha kell, változtat azon.
Az első benchmarktesztek több mint ígéretesek: azt mutatják, hogy az új modell olyan fontos konkurenciákra is ráver, mint például a programozók által ajnározott Claide 3.5 Sonnet vagy a Meta csúcsterméke, a Llama 3.1.
Az első, még aznap megszülető beszámolók az elragadtatás hangján beszélnek a Reflection-ről.
2024 szeptember 6-8.: a mézeshetek
Az X-en sorra jelennek meg a bejegyzések arról, hogy a tesztelők megerősítik a Reflection mérési eredményeit. Ez különösen annak a fényében zavarba ejtő teljesítmény, hogy ez egy kisebb modell.
A lelkesedés tetőfokára hág: a várható, nagy adatkészleten okosított 450B-s változat körül magasra csapnak a lelkesedés hullámai. Agyő, ChatGPT, agyő, Claude!
2024 szeptember 7.: a kijózanodás
Az egyik első rossz hírt a cégektől független MI-elemzőcég, az Artificial Analysis szállítja. Ők elvégzik újra a teszteket, és megállapítják, hogy az MMLU (Massive Multitask Language Understanding) benchmarknál szó sincs arról, hogy a Reflection verné a Llama-t, amely komolyan felveti Shumerék őszinteségét a saját produktumukkal kapcsolatban.
Ugyanezen a napon Matt Shumer feltöltési, technológiai problémára fogja a rosszabb eredményt, elismeri, hogy ez az ő hibájuk, és ígéretet tesz a javításra.
2024 szeptember 8.: az összeomlás
Az Artificial Analysis egy Shumertől kapott privát API-n keresztül teszteli a Reflection 70B-t, és megállapítja, hogy bár jók a teszteredmények, korántsem olyanok, mint ahogy az az eredeti, szeptember 5-i posztban volt olvasható.
Hamarosan több felhasználó is bebizonyítja: a Reflection nem egy, az LLM-ek fejlesztését meghatározó, új, forradalmi technológia. Nem is egy soha nem látott metódus, amely közelebb hozza a logikusan gondolkodó-érvelő algoritmusok korát, hanem csak egy „Claude wrapper”. Azaz a motorháztető alatt egy közönséges Claude 3.5 Sonnet generatív modell fut, amelyet beépített promptok segítségével tettek olyanná, mintha valami sokkal jobb és korszerűbb modell volna.
Közben furcsa dolgok történnek technológiailag is: a Reflection „dobja” Claude-ot, egy rövid ideig ChatGPT-re vált, majd kiköt a Llama-nál. Ezzel megnehezíti az igazság után kutakodók dolgát, de a screenshotok napnál világosabban bizonyítják, hogy tényleg csak egy, már meglévő modell tuningolása zajlik. A Hugging Face oldalán – ahol szabadon ki lehetett próbálni a Reflectiont – cenzúrázottabb válaszok kezdenek megjelenni. Az általános vélekedés szerint itt történt meg a „motorcsere”, hogy elrejtsék a Claude-ot a fürkész tekintetek elől.
Ezen a ponton több, a szakmában dolgozó ember csalónak és hazudozónak bélyegzi (meg) Matt Shumert, aki ezzel a marketingtrükkel próbált gyorsan még több befektetési pénzhez jutni. A Hugging Face külön posztsorozatban számol be Shumer velük kapcsolatos etikátlan viselkedéséről.
2024 szeptember 8.: a beismerés
A villámgyorsan terjedő, technikailag alátámasztott vádak alatt a bejelentő cégvezető kénytelen egy X-bejegyzésben visszakozni. Ebben többek közt azt írta, hogy túlságosan előresietett, és a meglévő információk alapján döntött. Mindenkit biztosított arról, hogy egy csapat dolgozik a probléma megoldásán, és ahogy a tények a rendelkezésükre állnak, tájékoztatást adnak.
Emellett a projekt másik kulcsszereplője, a programozó Sahil Chaudhary szintén ígéretet tesz arra, hogy megpróbálja megfejteni a titkot – ő ugyanis állítja, hogy nem használtak más modellt a Reflectionhöz.
A tanulságok
Az MI-közösségben is megvan a hype jelensége.
A generatív MI tudása nem korlátozódik nagy cégekre, mások is könnyen ellenőrizhetik egy-egy állítás igazságtartalmát.
Akár 48 óra alatt a mennyből a pokolba kerülhet az a CEO, aki hazudik a termékével kapcsolatban.
Iszonyatosan ki van éhezve mindenki a még szenzációsabb hírekre. Ahogy az egykori X-akták film címében is szerepel: „Hinni akarok” – méghozzá abba, hogy az MI fejlődése egyre több területet hódít meg.