Hírek

conTEXT 2021 Beszámoló

Rendezvény
2021.11.15. 10:21

A 2020-as pandémiás kényszerszünet után a Clementine idén novemberben ismét élőben várta az adattudomány és szövegbányászat iránt érdeklődő közönséget. A korábbi conTEXT konferenciákhoz hasonlóan az idei rendezvénynek is a CEU Nádor utcai épülete szolgáltatta az eseményhez méltó helyszínt.

A rendezvényt a szokásokhoz híven Körmendi György, a Clementine ügyvezetője indította. Nyitóbeszédében kitért a konferencia egyik kulcstémájának számító transzformer modellek jelentőségére, ezek üzleti használhatóságára és a piacra gyakorolt jövőbeni hatásukra. Szó esett még a Clementine legújabb projektjeiről, többek között a heti rendszereséggel futó Láncreakció Podcast-ről is. A konferencia záró eseményeként ráadásul a nézők maguk is szemtanúi és részesei lehettek a legfrissebb adás élő felvételének.   

A szakmai előadások sorát Dr. Simonka Gábor Aurél, a Nemzeti Adó- és Vámhivatal Pénzmosás és Terrorizmusfinanszírozás Elleni Iroda főosztályvezetője kezdte, aki a PEKIR (Pénzmosás Elleni Komplex Informatikai Rendszer) bevezetésének hátterét és tapasztalatait osztotta meg. Az előadás a hazai „pénzügyi információs egység” működésének és elemző, értékelő feladatainak bemutatásával kezdődött, majd ezt követte azoknak a külső és belső indikátoroknak a felsorolása, amelyek a PEKIR rendszer létrejöttét ösztönözték. A prezentációban szó esett még a megvalósítás konkrét lépéseiről, a felmerülő kihívásokról és megoldásukról, az éles üzembe állítást követő tapasztalatokról, végezetül pedig a jövőbeli tervekről és célokról.

A következőkben Dr.Yang Zijian Győző, a Nyelvtudományi Kutatóközpont tudományos munkatársa mutatta be a nyelvtechnológia legújabb innovációjának számító transzformer modellek működését. Az előadás rögtön egy kreatív felütéssel, egy Petőfi stílusában, ugyanakkor egy GPT2 modell tollából íródott conTEXT konferenciáról szóló verssel indult. A prezentáció kitért a transzformer modell architektúrájának és részeinek definiálására. Megtudtuk, hogy az enkóder alapú modellek remekül alkalmazhatók osztályozásra (pl. tulajdonnevek felismerése, szentimentanalízis), nyelvi következtetésekre, illetve szöveghasonlóságok feltárására. A csak dekóder alapú modelleket, mint a GPT, szöveggenerálás mellett ma már kódgenerálásra is használják. Ezzel párhuzamosan pedig az enkóder-dekóder modellek a gépi fordítás robbanásszerű fejlődését hozták meg. Az előadás második fele magyar viszonylatban mutatta be a jelenleg rendelkezésre álló modellek státuszát, alkalmazhatóságát és üzleti megtérülését.   

A kávészünetet követően Molnár-Edőcs Eszter, a Clementine vezető elemzője a Dr. Simonka Gábor Aurél által is bemutatott pénzmosás elleni, azaz AML rendszer bevezetésének tapasztalatait osztotta meg fejlesztői szemszögből. A rendszer technikai felépítésének ismertetése után az előadás egy konkrét példán, egész pontosan a strómangyanú detektálásán keresztül mutatta be a pénzmosás gyanús események feltárásának menetét. A folyamat részét képezi az adatelőkészítéstől kezdve az előzménykutatáson át a kockázatértékelésig számos lépés. A rendszer bevezetése előtt ezen feladatokat az elemzők manuálisan végezték, míg az AML-nek köszönhetően ma már egy előkészített ügyet kapnak kézhez a korábbi időráfordítás töredéke alatt. Azt is megtudhattuk, hogy az AML nem egy fekete doboz, hanem egy transzparens, hosszútávon is rugalmasan alakítható és fejleszthető rendszer.

„Mit mondana erre Hanga?”, tette fel a kérdést Dr. Geszler Nikolett, a Clementineszöveganalitikai tanácsadója a cég hangalapú virtuális asszisztensére utalva. Az előadás fókuszában az olyan Voice User Interface, azaz hangalapú és párbeszédre épülő technológiák tervezési nehézségei álltak, mint a nagy tech cégek jól ismert asszisztensei, Siri vagy Alexa. A prezentáció kitért arra, hogy az emberi kommunikáció leképezése miért mutat túl a technológiai kihívásokon és a programozók mellett miért jön jól egy úgynevezett conversational designer szaktudása is a fejlesztés során. Mitől olyan egyedi az emberi kommunikáció? És milyen trükkökkel tehető gördülékenyebbé a párbeszéd ember és robot között? Megismerhettük azt is, hogy a társadalmi egyenlőtlenségek hogyan jelennek meg a technológiában és miért szükséges a kulturális szempontok figyelembevétele a tervezés során. 

Az ebédszünet előtti blokkot egy újabb Clementine előadás zárta: Kelemen Sára Bernadett, aClementine junior elemzője osztotta meg kutatásának eredményét, amelyben a férfiak és nők nyelvhasználatának különbségeit elemezte Facebook posztokat vizsgálva. A prezentáció rámutatott arra, hogy habár a szófajok gyakorisága szerint nem különböztethető meg a két nem, a leggyakrabban használt szavak sorrendjében már található differencia és az is megállapítható, hogy az emojik halmozása jobban jellemzi a nőket, mint a férfiakat. A kutatás emellett arra kereste a választ, hogy az alkalmazott klasszifikációs modellek közül melyik képes a leghatékonyabban beazonosítani a poszt írójának nemét kizárólag nyelvhasználat alapján: az eredmények tanúsága szerint a Bernoulli Naiv Bayes bizonyult a legjobb gépi tanulási módszernek.

Az ebédet követően Dr.Farkas Richárd, a Mesterséges Intelligencia Nemzeti Laboratórium nyelvtechnológiaialprojektjének vezetője a szövegelemző megoldások üzleti életbe való átültetésének nehézségeiről, valamit az emberi szakértői tudás gépi tanulási rendszerekbe való bevonásának fontosságáról beszélt. A prezentáció rámutatott arra, hogy a neurális nyelvi modellek, legyenek akármilyen fejlettek, önmagukban még nem oldják meg a nyelvtechnológiai problémákat addig, amíg a jelenlegihez hasonló szakadék tátong a kutatási terület és az üzleti igények között. A kutatók gyakran csak a reprezentációra fókuszálnak, míg a konkrét alkalmazhatóságot érintő kérdések és az adott üzleti terület megértése elmarad. Így pedig a fejlesztések csupán fekete dobozok, amiket nem lehet rugalmasan az üzleti igényekre szabni. Megtudhattuk, hogy megoldást az úgynevezett kollaboratív MI, azaz az emberi szakértő és az adatból tanuló gép együttműködése hozhatja meg. 

context-foto

Végül pedig az esemény fénypontjaként a konferencia otthont adott a Láncreakció Podcast legújabb adásának felvételére. Egy kerekasztal beszélgetés formájában a nézők élőben követhették, hogy hogyan zajlik egy podcast felvétel, ráadásul többször megszólítva, interaktív módon valódi részesei lehettek az élménynek. A podcast állandó szereplői, Pohly Ferenc, Körmendi György és Kovács Gyula mellett Dr. Farkas Richárd csatlakozott a beszélgetéshez. A szakértők arra keresték a választ, hogy az NLP technológiák terén mennyire áll összhangban elmélet és gyakorlat, melyek azok a területek, ahol az elvárások megközelítik a valóságot és melyek azok, ahol az NLP nem váltotta be a hozzá fűzött reményeket.

A nem mindennapi adás itt elérhető. Ne érdemes kihagyni!

Tovább olvasom »

Tovább olvasom »

Tovább olvasom »

Tovább olvasom »