Hírek

Watsonnal magyarul

Kutatás
2018.07.27. 11:44

Ha egy konferencia vagy bemutató alkalmával szóba kerül Watson és az IBM, sok embernek beugrik a szuperszámítógép, ami a Jeopardy! nevű amerikai vetélkedőben legyőzte a játék történetének két addigi legjobb játékosát. Ez 2011-ben történt. A szakma ekkor a nagy áttörést várta a mesterséges intelligencia alkalmazásainak területén, de jó néhány év csend következett. Pancza Judit cikke.


Watson hatalmas előrelépés volt a mesterséges intelligencia és NLP (natural language processing) alkalmazások területén, és rámutatott arra, hogy az alapvető technológiák már léteznek egy ilyen komplexitású rendszer létrehozásához. Mára minden eddiginél több kutató, fejlesztő, data scientist dolgozik világszerte azon, hogy ezek az alkalmazások beépüljenek a mindennapokba. A Google, a Facebook, az Amazon az életünk egyre több területén van jelen, Watson egyes elemei, például a szöveganalitikai alkalmazásai pedig egyre több üzleti szervezet működését teszik hatékonyabbá.  Magyarországon is. Hiszen az alapvető technológiák magyar nyelven is adottak – és nem arra gondolok, hogy az androidos okostelefonomnak magyarul is tudok már diktálni, hanem itt teljes egészében magyar fejlesztésekről van szó. Sőt, alkalmazzák is ezeket a technológiákat a bankszektortól a telekommunikációs vállalatokon át a rendvédelmi szervezetekig – csak, hogy a saját megoldásaink felhasználási területeit említsem.

  • Létezik magyar nyelvű beszéd leiratozó rendszer, amely már több területen is bizonyított: call centerek alkalmazzák a nagy mennyiségben keletkező hangfelvételek szöveggé alakításához, hogy lehetővé váljon azok mélyebb elemzése; de élő tévéműsorok feliratozásához vagy bírósági jegyzőkönyvek elkészítéséhez is használják.
  • Létezik magyar nyelvű beszédszintetizáló megoldás, ezt hallhatjuk például a vasútállomásokon.
  • Léteznek magyar nyelvű szövegbányászati, NLP-eszközök, vannak magyar nyelvű szótárak, tanító korpuszok.

Ezekből a technológiákból olyan automata megoldásokat építhetünk, amelyek számos területen képesek hatékonyabbá tenni egy szervezet működését. Néhány példa a teljesség igénye nélkül:

  • Ha képesek vagyunk egy nagy, strukturálatlan dokumentumhalmazból információ kinyerésére, olyan összefüggésekre bukkanhatunk, amelyekre eddig nem is gondoltunk (felépíthetünk automatizált módon akár egy tudásbázist is).
  • Ha képesek vagyunk a hangot szöveggé alakítani és a leírt szövegben megadott szempontokat azonosítani, automatizálhatjuk a telefonos ügyfélszolgálat minőségbiztosítási folyamatainak jelentős részét.
  • Ha képesek vagyunk a szöveget feldolgozni, megérteni, akkor képesek lehetünk egy kérdésre automatikusan megtalálni a választ, így tehermentesíthetjük az ügyfélszolgálatot automata e-mail-kezelő rendszer vagy chatbot bevezetésével.

Ezek ma már létező alkalmazások, megoldások, vagyis minden adott ahhoz, hogy felépítsük  a magyar Watsont. Igazából már el is kezdtük, amikor a Watson mögött álló szöveganalitikai rendszert megtanítottuk magyarul.

Watsonnal magyarul


Hogyan tanult meg magyarul?

A Clementine-nál 2007 óta foglalkozunk magyar nyelvű szövegbányászattal SPSS-alapokon és fejlesztjük az erre épülő megoldásainkat. Számos hobbi, demó és pilot projekt után értünk el az első, éles üzemben működő alkalmazásunk bevezetéséig, de addig is nagyon sok tudást, adatot és szótárt halmoztunk fel, amelyek kifejezetten jól jönnek egy új eszköz tanításához és teszteléséhez.

A magyarítást az IBM Watson Explorer (WEX) nevű eszközével kezdtük, melynek alapjai gyakorlatilag „a szuperszámítógép Watson” alapjai is egyben.


Az első lépés volt, hogy megtanítottuk felismerni a magyar nyelvet.
A nyelvfelismerés a szövegbányászati feldolgozás nulladik lépése, így van ez a Watson esetében is: ahhoz, hogy tudja, hogy egy adott szövegre mely szabályokat, szótárakat kell alkalmaznia, először meg kell határoznia annak nyelvét.
A feladat megoldására számos megközelítés létezik. Minden nyelvre jellemző, hogy egyes szavak, speciális karakterek vagy karaktersorozatok gyakrabban fordulnak elő, mint más nyelvekben. A magyar nyelvre jellemző például a hosszú ékezetes karakterek alkalmazása (á, é, ő, stb), ám ezek hiánya nem jelenti azt, hogy biztosan nem magyar egy szöveg (gondoljunk egy fórumra, ahol a hozzászóló nem használ ékezeteket).
A feladatunk tehát az volt, hogy a magyar nyelvre jellemző karakter-, karaktersorozat-elosztást képezzük le egy szótár formájában.

A második lépés volt, hogy megtanítsuk „érteni” a magyar nyelvet.
Azaz, hogy megtanítsuk a magyar szövegeket mondatokra, szavakra bontani, a szavakat szótövezni és megállapítani a szófajukat. Mondhatjuk, hogy könnyű dolgunk volt: a Watson „csak” egy nagy, annotált tanítómintát várt el, amit mi az SPSS Modelerbe ágyazott CLEMTEXT megoldásunk – melynek alapja a Szegedi Tudományegyetem magyarlánc-alkalmazása – segítségével automatikusan elő tudtunk állítani. Persze kellett hozzá az évek során felhalmozott korpusz, ami főleg hírekből, blogbejegyezésekből állt össze, teljesen vegyes témában.
A korpuszunk több mint 9000 „dokumentumból”, 210 ezer mondatból állt. A stopszavak kiszűrése után a tanítómintánk több mint 38 ezer szótőt, kb. 110 ezer ragozott alakot és az ezekhez tartozó szófaji megjelölést tartalmazta.
A harmadik lépés, hogy megtanítsuk érteni az adott iparágat.
A Watson koncepciója bizonyos szempontból nagyon távol van az SPSS-nél megszokott működéstől, de alapjaiban azért sok a hasonlóság: szótárakra van szükségünk ahhoz, hogy definiáljuk, milyen típusú információt akarunk kinyerni a szövegből, ezek a szótárak pedig iparág-, domainspecifikusak.
Az elmúlt években számos szöveg-analitikai projektünk volt a legkülönbözőbb iparágakban, megtanultuk, hogy építsünk fel és szabjunk testre egy-egy iparági szótárat.  Most pedig megtanultuk, hogyan tanítsuk meg mindezt Watsonnak.

Kell még nyelvet tanulni?

Van, aki azt várja, hogy néhány éven belül már nem kell nyelvtanulással foglalkoznunk, elég lesz egy kis kütyü, ami a fülünkbe téve valós időben fordítja nekünk, amit külföldi beszélgetőpartnerünk mond. Amazonról már tulajdonképpen mai is megrendelhetünk egy olyan eszközt, ami képes angol és néhány nagyobb nyelv között ezt megvalósítani, de attól valószínűleg még messze vagyunk, hogy mondjuk az Adrián magyar és horvát nyelven ezt használhassuk.
A nagy szállítók nyelvtechnológiai alkalmazásai persze sok nyelven elérhetők – magyarul és horvátul is –, azonban ezek általános megoldások, amelyek az üzleti felhasználásban nem érik el a kívánt pontosságot. Nagy szerepe lesz tehát a jövőben is a nyelvre és az iparágakra tanítható, akár egyedi megoldásoknak.


A cikk eredetileg az Xperience&Research Magazin 2018/I. lapszámában jelent meg. A magazin ingyenesen megrendelhető a magazin@clementine.hu e-mail címen.

Tovább olvasom »

Tovább olvasom »

Tovább olvasom »

Tovább olvasom »