Rendezvény
2021.11.15. 10:21
A 2020-as pandémiás kényszerszünet után a Clementine idén novemberben ismét élőben várta az adattudomány és szövegbányászat iránt érdeklődő közönséget. A korábbi conTEXT konferenciákhoz hasonlóan az idei rendezvénynek is a CEU Nádor utcai épülete szolgáltatta az eseményhez méltó helyszínt.
A rendezvényt a
szokásokhoz híven Körmendi György, a Clementine ügyvezetője indította.
Nyitóbeszédében kitért a konferencia egyik kulcstémájának számító transzformer
modellek jelentőségére, ezek üzleti használhatóságára és a piacra gyakorolt
jövőbeni hatásukra. Szó esett még a Clementine legújabb projektjeiről, többek
között a heti rendszereséggel futó Láncreakció Podcast-ről is. A konferencia záró
eseményeként ráadásul a nézők maguk is szemtanúi és részesei lehettek a legfrissebb
adás élő felvételének.
A szakmai előadások
sorát Dr. Simonka Gábor Aurél, a Nemzeti Adó- és Vámhivatal Pénzmosás és
Terrorizmusfinanszírozás Elleni Iroda főosztályvezetője kezdte, aki a PEKIR
(Pénzmosás Elleni Komplex Informatikai Rendszer) bevezetésének hátterét és
tapasztalatait osztotta meg. Az előadás a hazai „pénzügyi információs egység”
működésének és elemző, értékelő feladatainak bemutatásával kezdődött, majd ezt
követte azoknak a külső és belső indikátoroknak a felsorolása, amelyek a PEKIR
rendszer létrejöttét ösztönözték. A prezentációban szó esett még a megvalósítás
konkrét lépéseiről, a felmerülő kihívásokról és megoldásukról, az éles üzembe
állítást követő tapasztalatokról, végezetül pedig a jövőbeli tervekről és
célokról.
A következőkben Dr.Yang Zijian Győző, a Nyelvtudományi Kutatóközpont tudományos munkatársa
mutatta be a nyelvtechnológia legújabb innovációjának számító transzformer
modellek működését. Az előadás rögtön egy kreatív felütéssel, egy Petőfi
stílusában, ugyanakkor egy GPT2 modell tollából íródott conTEXT konferenciáról
szóló verssel indult. A prezentáció kitért a transzformer modell
architektúrájának és részeinek definiálására. Megtudtuk, hogy az enkóder alapú
modellek remekül alkalmazhatók osztályozásra (pl. tulajdonnevek felismerése,
szentimentanalízis), nyelvi következtetésekre, illetve szöveghasonlóságok
feltárására. A csak dekóder alapú modelleket, mint a GPT, szöveggenerálás
mellett ma már kódgenerálásra is használják. Ezzel párhuzamosan pedig az
enkóder-dekóder modellek a gépi fordítás robbanásszerű fejlődését hozták meg. Az
előadás második fele magyar viszonylatban mutatta be a jelenleg rendelkezésre
álló modellek státuszát, alkalmazhatóságát és üzleti megtérülését.
A kávészünetet
követően Molnár-Edőcs Eszter, a Clementine vezető elemzője a Dr. Simonka
Gábor Aurél által is bemutatott pénzmosás elleni, azaz AML rendszer
bevezetésének tapasztalatait osztotta meg fejlesztői szemszögből. A rendszer
technikai felépítésének ismertetése után az előadás egy konkrét példán, egész
pontosan a strómangyanú detektálásán keresztül mutatta be a pénzmosás gyanús
események feltárásának menetét. A folyamat részét képezi az adatelőkészítéstől
kezdve az előzménykutatáson át a kockázatértékelésig számos lépés. A rendszer
bevezetése előtt ezen feladatokat az elemzők manuálisan végezték, míg az
AML-nek köszönhetően ma már egy előkészített ügyet kapnak kézhez a korábbi
időráfordítás töredéke alatt. Azt is megtudhattuk, hogy az AML nem egy fekete
doboz, hanem egy transzparens, hosszútávon is rugalmasan alakítható és
fejleszthető rendszer.
„Mit mondana erre
Hanga?”, tette fel a kérdést Dr. Geszler Nikolett, a Clementineszöveganalitikai tanácsadója a cég hangalapú virtuális asszisztensére
utalva. Az előadás fókuszában az olyan Voice User Interface, azaz hangalapú és
párbeszédre épülő technológiák tervezési nehézségei álltak, mint a nagy tech
cégek jól ismert asszisztensei, Siri vagy Alexa. A prezentáció kitért arra,
hogy az emberi kommunikáció leképezése miért mutat túl a technológiai kihívásokon
és a programozók mellett miért jön jól egy úgynevezett conversational designer
szaktudása is a fejlesztés során. Mitől olyan egyedi az emberi kommunikáció? És
milyen trükkökkel tehető gördülékenyebbé a párbeszéd ember és robot között? Megismerhettük
azt is, hogy a társadalmi egyenlőtlenségek hogyan jelennek meg a technológiában
és miért szükséges a kulturális szempontok figyelembevétele a tervezés
során.
Az ebédszünet
előtti blokkot egy újabb Clementine előadás zárta: Kelemen Sára Bernadett, aClementine junior elemzője osztotta meg kutatásának eredményét, amelyben a
férfiak és nők nyelvhasználatának különbségeit elemezte Facebook posztokat vizsgálva.
A prezentáció rámutatott arra, hogy habár a szófajok gyakorisága szerint nem
különböztethető meg a két nem, a leggyakrabban használt szavak sorrendjében már
található differencia és az is megállapítható, hogy az emojik halmozása jobban
jellemzi a nőket, mint a férfiakat. A kutatás emellett arra kereste a választ,
hogy az alkalmazott klasszifikációs modellek közül melyik képes a
leghatékonyabban beazonosítani a poszt írójának nemét kizárólag nyelvhasználat
alapján: az eredmények tanúsága szerint a Bernoulli Naiv Bayes bizonyult a
legjobb gépi tanulási módszernek.
Az ebédet követően Dr.Farkas Richárd, a Mesterséges Intelligencia Nemzeti Laboratórium nyelvtechnológiaialprojektjének vezetője a szövegelemző megoldások üzleti életbe való
átültetésének nehézségeiről, valamit az emberi szakértői tudás gépi tanulási
rendszerekbe való bevonásának fontosságáról beszélt. A prezentáció rámutatott
arra, hogy a neurális nyelvi modellek, legyenek akármilyen fejlettek,
önmagukban még nem oldják meg a nyelvtechnológiai problémákat addig, amíg a
jelenlegihez hasonló szakadék tátong a kutatási terület és az üzleti igények
között. A kutatók gyakran csak a reprezentációra fókuszálnak, míg a konkrét
alkalmazhatóságot érintő kérdések és az adott üzleti terület megértése elmarad.
Így pedig a fejlesztések csupán fekete dobozok, amiket nem lehet rugalmasan az
üzleti igényekre szabni. Megtudhattuk, hogy megoldást az úgynevezett
kollaboratív MI, azaz az emberi szakértő és az adatból tanuló gép
együttműködése hozhatja meg.
Végül pedig az esemény
fénypontjaként a konferencia otthont adott a Láncreakció Podcast
legújabb adásának felvételére. Egy kerekasztal beszélgetés formájában a nézők
élőben követhették, hogy hogyan zajlik egy podcast felvétel, ráadásul többször
megszólítva, interaktív módon valódi részesei lehettek az élménynek. A podcast
állandó szereplői, Pohly Ferenc, Körmendi György és Kovács Gyula mellett Dr.
Farkas Richárd csatlakozott a beszélgetéshez. A szakértők arra keresték a
választ, hogy az NLP technológiák terén mennyire áll összhangban elmélet és
gyakorlat, melyek azok a területek, ahol az elvárások megközelítik a valóságot
és melyek azok, ahol az NLP nem váltotta be a hozzá fűzött reményeket.
A nem mindennapi
adás itt elérhető. Ne érdemes kihagyni!