Skip to main content

A 24.hu is tesztelte az Elvirát!

  • Iparág: Biztosítás

Büszkeség projektünk, a nemrég bemutatott Elvira robotasszisztens híre futótűzként járta be a magyar médiát. Legutóbb a 24.hu főoldalán adtak hírt az innovációról és tesztelték is a fejlesztést.
 
A 24.hu is tesztelte az Elvirát!

Adrián Zoltán / 24.hu
 
Elvira, a MÁVDIREKT ügyfélszolgálatát támogató robotasszisztense egyszerre akár 10 érdeklődő belföldi menetrenddel kapcsolatos kérdéseire is tud válaszolni. Alapja a cégünk által fejlesztett Hanga virtuális ügyfélszolgálati munkatárs, amit a MÁVSTART igényei szerint alakítottunk át.
 
Kattints, és olvasd el a fejlesztői csapattal készült interjút és azt, hogy milyen jól sikerültek a szerkesztőség teszthívásai!

A mesterséges intelligencia már nem a jövő zenéje, avagy japán popsztártól a generatív megoldásokig

  • Iparág: Biztosítás

A zene szinte magától értetődően az a terület, amely jó alapanyaga lehet a mesterséges intelligenciának, a mélytanulási rendszereknek: egyértelmű mintázattal rendelkezik, amelyet könnyen át lehet fordítani matematikai és statisztikai nyelvre. Mégis, a kezdeti lépések után itt is a generatív MI berobbanása kellett, hogy a zenészek is beállhassanak az „MI elveszi a munkánkat” egyre népesebb, és sajnos egyre realistábbnak tűnő kórusába.

A test nélküli J-Pop

2004 elején, egy közös kutatási projekt eredményeképp adta ki a Yamaha Corporation a Vocaloid nevű szoftvert. A zenei program előre szintetizált emberi énekhangok manipulációját tette lehetővé. A történet itt azonban nem ért véget: bárki beírhatott dalszöveget is, amelyet a Vocaloid elénekelt (ma már angol, japán és koreai nyelven is). Így egyszerűbb a sztárcsinálás, gondolták a sapporói Crypton Future Mediánál, akik 2007-ben a technológiára „ráültették” Hatsune Mikut, aki új virtuális énekesként lépett elő. A speciális vetítéssel koncerteket adó figura a leírások szerint egy 16 éves, 158 centiméteres, 48 kilogramm tömegű lány, akinek még a hangterjedelmét is meghatározták. Hatsune Miku azóta gyakorlatilag a japán popkultúra jeles képviselőjeként még olyan rangos, külföldi eseményeken is „fellépett”, mint például a legendás Coachella fesztivál. (Érdemes szétnézni a virtuális lény / lány YouTube-csatornáján.)

Gép + ember a Beatles stílusában

2016-ban a Sony CSL Research Laboratory kutatói lepték meg a világot az első, MI által (is) létrehozott popdallal. A Flow Machines algoritmust popdalok tízezreivel „etették”, így a rendszer mélytanulással feltérképezte az egyes zenei előadókra jellemző stílust, tempót, váltásokat, dallamokat és ritmusokat. Ebből választották ki a Beatles stílusát, és a Flow Machine egy új dallamot generált. 2016-ban azonban még nem tartottunk ott, ahol ma, így francia zeneszerzők, Benoit Carré és François Pachet alakították véglegesre a dalt, és a szöveget is ők írták a keresztségben Daddy’s Car címet kapó dalhoz.

Azóta egy 15 nagyon különböző stílusú dalt tartalmazó, Hello World című albumot is kiadtak a Flow Machine projektfelelősei, méghozzá a SKYGGE nevű művész bábáskodásával (tehát még nem teljesen automatizálták az alkotási folyamatot). Az album itt meghallgatható.

Sláger, ami sose volt

2023 szeptemberében érkezett a meglepő hír: Grammy-díjra szeretnék jelölni a Drake és a Weeknd művésznevű énekesek kollaborációját, a Heart on My Sleeve című dalt. A gond csak az volt, hogy a popszámhoz az említett két előadónak semmi köze nem volt – annál inkább a generatív MI-t használó, titokzatos, Ghostwriter fedőnevű alkotónak. A technológiai kérdés mellett itt már előjön egy mélyen emberi kérdés: vajon ki az alkotója az ilyen daloknak? Az egyik ottani szakmai szervezet szerint kétségkívül egy ember (a szövegét mindenképp ő írta, a kórusokat pedig az MI hozta össze), tehát a dal jelölhető. (Végül más okok miatt a Grammy nem jöhetett össze).

Nekünk, magyaroknak sincs szégyenkeznivalónk ezen a területen. 2024 januárjában jelent meg a videómegosztókon az AZAHRIAH x SZOBOSZLAI - Azi meg a Szobó (AI VOICES, MIND1 COVER), MI által generáltatott zeneszám. A később magát csak „Frontemberként” aposztrofáló, maszkban és eltorzított hangon nyilatkozó anonim készítő elmondta, hogy ezen a dalon kívül „igyekszünk majd olyan embereket mikrofon elé állítani virtuálisan, akik a való életben valószínűleg nem fognak rappelni vagy énekelni.” A hírek szerint a jelenlegi legnépszerűbb magyar dalszerző, előadó, Azahriah nem rajong a nevét (és hangját) felhasználó, mára már a kétmillió megtekintést is átlépő álszerzeményhez.

Jönnek a zeneszerző alkalmazások!

A jövő pedig elkerülhetetlennek tűnik ezen a területen. A nagyok, így a Meta vagy a Google már bemutatták a maguk zeneszerző mesterséges intelligenciáit, amelyek nagyon ígéretesnek tűnnek már most is. A promptból dalt szerző gépi megoldások némelyikét már a piac teszteli. Ilyen a Casette AI is, amely már több mint 50 000 aktív felhasználóval büszkélkedhet, de korlátai még egyértelműek. A freemium modellben elérhető alkalmazás ugyanis képes nagyon inspiratív, továbbgondolásra érdemes zenéket szerezni a legváltozatosabb stílusokban és műfajokban, de az ember által szerzett (könnyű)zene finomságaihoz még mindig emberi kéz kell. Pont az történik tehát, amit a szöveggenerálásnál is egy író vagy marketinges is megtapasztal.

Ez a helyzet azonban csak a jelenre, 2024 első negyedévére igaz – milyen eszközeink lesznek majd vajon egy vagy két év múlva? Talán annál is jobb, amellyel életre keltettek 2023 végén egy 1966 óta szunnyadó Beatles-dalt, a mélytanuló rendszernek köszönhetően először hallható Now and Then-t?

Az igazán disztópikus borzongásra vágyóknak végezetül a teljes egészében, tehát zene, szöveg és előadó, valamint klip tekintetében is mesterséges klipet ajánljuk a beszédes nevű Anna Indiana (AI) nevű „előadótól”.

Arc-varázs, egy Disney MI-sztori

  • Iparág: Biztosítás

Ismeretes, hogy a Disney Studios a szemkápráztató, lélegzetelállító látványvilág megteremtésének nagymestere. A napi munka túlhevült tempójában sajnos nem minden projektre jut elég idő és számítási kapacitás, így a nagy film- és sorozatgyártási láz eredményeként számos olyan számítógép által generált grafika és mozgókép lát napvilágot, melyeket már a kétezres években is közröhej tárgyaként ünnepelt volna a nagyérdemű. 

Az Arc-varázs történet a Jégvarázshoz hasonlóan csodával határos képességeket mutat be, Elza hercegnő szerepét azonban mesterséges intelligencia megoldások veszik át, a fagy és jég manipulálása helyett a digitális illúziók árnyékában szerepüket játszó színészek életkorának mesterséges intelligencia általi változtatása kerül középpontba.  

Szakavatott körökben ismert tény, hogy 3D modellezési megoldásokkal elképesztő jó minőségben lehet a színészek arcának minden jellemzőjét manipulálni. A legkorszerűbb, megbízható megoldások azonban rettentő idő- és erőforrás igényesek, ezért, jellemzően „csak” a képernyőidőt dominánsan birtokló személyen alkalmazzák – a „hős mozik”. 

Szükség van egy idő- és energiagazdaságos középútra, ami 2D képeken képes a színészek életkorának változtatására. Itt ismét teszünk egy rövid kitérőt a gyerek-felnőtt időskálán történő változtatásra, szintén van megoldás, de azt 2D formátumra rádolgozni egy teljesen másik projekt. 

Meg is kaptuk az Arc-varázs forgatókönyvének központi témáját: 18-65 év közötti színészek életkorának változtatása, mesterséges intelligencia megoldások segítségével. Ejh! Nem nagy dolog: itt van a telefonomon mindjárt három alkalmazás, öregít – fiatalít – szépít. Kérdezhetnénk, mi ebben a kihívás? A kérdés precízen megválaszolható pár ezer oldalnyi szakmai anyag áttekintésével, de sajnos több kérdést vet fel, mint amennyit megválaszol, és innen már nem elég szakmai anyagokat elolvasni, kísérletezni kell. Ezen tanulmányozás és kísérletezés, boszorkányos összetettségű mesterséges intelligencia programozás eredménye a Disney Studio FRAN rendszere. A rendszer kialakításának kihívásait összegyűjtve kaphatunk egy frappáns forgatókönyv vázlatot az Arc-varázs történetünkhöz. 

Csapó 01 – „Tiéd ez a fénykép 2053-ból?”

A tanuló mesterséges intelligencia algoritmusoknak adat kell. Így 2022-ben lehetetlen 4k minőségben egy 30 éves színészről 18 éves korából fotót szerezni, megfelelő minőségben, de ennél nagyobb kihívás a jövőbeli énjéről fotót találni. Generálni kell tehát, méghozzá ipari mértékben. 

csapó 01

Csapó 02 – „Steve! Ne a kamerába nézz, hanem fel-balra!”

A telefonos időgép-alkalmazások szép munkát végeznek szemből. De ha elfordítjuk a fejünket, akkor pár pillanat után figyelmeztetnek, hogy a kamerába nézzünk. Megoldást kell találni a 3D modellezés nélkül a különböző szögekben öregítendő arcokra.

csapó 02

Csapó 03 – „Steve! Mosolyogj már, ha mondom!”

Az MI-algoritmusnak készen kell állnia a különböző arckifejezéseken történő öregítésre. A dinamikusan keletkező ráncok, mosoly, fej- és alaktorzulás számos kihívást rejt magában.

csapó 03

Csapó 04 – „Esti jelenet, kérjük, kerüljék a fény használatát!”

Nem egyszerűen arcot öregítünk különböző szögekben, a fény és árnyék játékára is figyelemmel kell lenni, nem beszélve azok különböző színeiről.

csapó 04

Csapó 05 – „Steve, figyelj már … a harmadik jelenetnél, az te vagy?”

Az álló kép világából a mozgó kép világába átmenet a fenti problémákon túl felveti azt a problémát, hogy a másodpercenkénti 30 képkockán, végig egyenletesen ugyanazon arcnak kell lennie. Nem minden alkalmazás képes megfelelő minőségben tartani a fő arcvonásokat.

Csapó 06 – „Vannak bogarak ebben a jelenetben?”

A mesterséges intelligencia beavatkozása egy képbe nem egyszerű folyamat, amennyiben hibázik, akkor képernyőhibák jönnek létre, változó színben és minőségben.

Csapó 07 – „Valaki tegye vissza a mozgási elmosódást a képre”

A fiatalító – öregítő algoritmusnak tudnia kell kezelni a fókuszt és a gyors mozgásból eredő képernyőeffekteket (motion blur), ezeket nem változtathatja meg.

csapó 07

Csapó 08 – „Ez szépen öregít, de ez meg jobban kezeli a dinamikus szarkalábat”

A mesterséges intelligencia algoritmusok kombinálása vezet gyakran a legjobb megoldáshoz, ezek együttes alkalmazása, azonban szép technológiai kihívás. (a képen látahóak az alkalmazott technológiák nevei, az „ours” érték a Disney Studios FRAN megoldását jelöli)

csapó 8

Csapó 09 – „Szerintem ott nem kellene még öregedni”

A telefonos megoldásokkal szemben az öregítő algoritmusok finomhangolhatóak, gyakorlatilag arc tájra vonatkozó részletességgel – nem beszélve arról, hogy a korral például nő a férfiak füle! 

csapó 09

Extra jelenet – „A sminkesek, fodrászok és úgy mindenki MARAD.”

Az kor változtató algoritmus csak egy komponense az Arc-varázslatnak, az életkor és élethelyzet művészi beállítása (korhű frizura, smink, ruházat) a kiindulási alap, ezt a kellékes munkát egészíti ki a FRAN. Nem veszi el a mesterséges intelligencia a stáb munkáját. 

extra jelenet

Forgatókönyv: kész! A technológiai részleteket kedvelőknek az alábbi linken elérhető a Disney Studio részletes dokumentációja.

Forrás: studios.disneyresearch.com

Csatlós Béla, Clementine, IT Support

Elvira a Business Class-on

  • Iparág: Biztosítás
Körmendi György, a Clementine ügyvezetője a Jazzy Rádió Business Class műsorának vendége volt.
 
„Elvira egy fogalom, mindenki ismeri” – ez a mondat hangzott el a beszélgetés legelején. És már beszélgethetünk is vele, hiszen a MÁV robotasszisztensével egy mindenki számára egyszerűen használható rendszert alkotott meg a Clementine.
 
Elvira létrejöttéről, fejlesztéséről, sőt még a névnapi köszöntéséről is szó esett a Jazzy műsorában. Mekkora megtakarítást jelent a megrendelő cégnek egy ilyen fejlesztés bevezetése? Mit jelent az, hogy folyamatos fejlesztést igényel a rendszer?
 
A teljes beszélgetést itt hallgathatjátok meg:
 
 

ELVIRA országos rádióműsorban üzent Balázséknak

  • Iparág: Biztosítás

Miután február 3-án Magyarország egyik leghallgatottabb rádióműsorának három műsorvezetője élő adásban tesztelte a MÁV robotasszisztensét, Elvirát, aki hősiesen állta is a sarat, ő sem hagyhatta válasz nélkül az elhangzott dicséreteket.
 
A fejlesztőin és a MÁV-on keresztül üzent Balázséknak, amit a február 8-i reggeli adásban be is játszottak, sőt reagáltak is rá. De hogy mi volt az üzenet és miért tervezik, hogy névnapján felköszöntik Elvirát? Az adás vonatkozó részéből kiderül.
 
https://soundcloud.com/balazsek/3-vilagszerte-2-milliard-ember

Okos és szórakoztató, avagy mesterséges intelligencia a CES-en

  • Iparág: Biztosítás

A legfontosabb technológiai esemény a Föld bolygón. Ezzel a szlogennel hirdeti magát a hagyományosan év elején, Las Vegasban megtartott szórakoztatóelektronikai show. Az itt felbukkanó, számos iparágra kiterjedő fejlesztések, prototípusok mindig az adott évek korszellemét tükrözik. Persze, hogy idén az MI-alapú felhozatalé volt a főszerep – ebből mutatunk be három izgalmas innovációt.

Csevegj a mellékszereplővel!

A chiptervezés nagyágyúja, a generatív MI iránti érdeklődés egyik hatalmas nyertese az Nvidia. Az amerikai cég, amely a mesterséges intelligencia történelmének is már az egyik fontos szereplője, idén is megvillantotta jövő iránti elkötelezettségét.

Az Nvidia Avatar Cloud Engine (ACE) for Games egy olyan modell, amellyel a játéktervezők az eddigiekben passzívabb karaktereit is élettel tölthetik meg. A nagy nyelvi modellekkel a karakterek egyedi háttértörténetet kapnak, élő, emberi beszédre is intelligensen fognak reagálni, és az arcanimáció terén is előrelépés történt.

Ha eddig féltünk attól, hogy a modern videojátékok addiktívak, nos, akkor várjuk meg, milyenek lesznek az MI-vel!

Parkol az MI

Több érdekes újdonságot mutattak be az autóipari szereplők. Az egyik izgalmas fejlesztés a BMW nevéhez fűződik, amely az iX xDrive, egyébként nálunk is kapható modelljét turbózza fel. A Remote Valet Parking rendszer lényege, hogy a zsúfolt városi közlekedés egyik bosszantó hozományát, a parkolást könnyíti meg. Négy lézerszkennere körbevizsgálja az autó környezetét, és azonosítják az akadályokat, például a gyalogosokat vagy a parkolóház oszlopait.

Ennek köszönhetően a villanyautók vezetői beavatkozás nélkül képesek a városi környezetben megtalálni a parkolóhelyeket. Szintén a Remote Valet Parking része az Amazon nagy nyelvi rendszerére épülő Alexa által támogatott, generatív MI megoldása, az Intelligent Personal Assistantis, amellyel hangutasításokkal lehet irányítani az autót, így a parkolást is. A jövő a német gyártó szakemberei szerint az ember-MI párbeszédére, interakciójára (is) épül.

(Bár ez a koncepció futurista szemmel még mindig elmarad az ugyancsak a CES-en, egyelőre csak animáción kínai Xpeng Aeroht 2025-re ígért repülő autójától.)

Csendes éj

Míg pár esztendeje a technológiai közbeszédben az „okos” kezdetű tárgyak álltak a hype középpontjában, ma ennek szerepét az MI vette át. Így az sem véletlen, hogy a CES-en is látott, egyébként számtalan díjjal elhalmozott Motion Pillow egy mesterséges intelligenciával működő párna (az eredeti szövegben: airbag, vagyis légzsák), amely a bosszantó és egészségkárosító hatású horkolást kívánja mérsékelni.

Az MI szerepe itt az, hogy egy érzékelővel horkoló ember zaját felismeri, és a párnát aszerint fújja vagy ereszti, ahogy ezek a zajok csökkennek. A fej elhelyezkedését ugyanis álom közben módosítja fizikailag is, szabaddá téve a légutakat, amely a horkolásmentes alvás egyik előfeltétele.

Ez a potom 700 amerikai dollárba kerülő „készülék” a CES innovációs díját nyerte el az intelligens otthon kategóriában.