Kutatás

50 éves az SPSS

Iparág: Biztosítás

Real Stats. Real Easy. Real Senior. (hiv1)

A matematikai statisztikai módszerek, így az SPSS keletkezésének és használatának indoka hagyományosan a már megtörtént jelenségek megértése az adatokban rejlő összefüggések feltárásával. Később egyre fontosabbá vált a statisztika prediktív szemléletű alkalmazása, a lehetséges következmények bejóslása és döntések megalapozása statisztikai modellek alapján. Manapság pedig fokozottan érvényesül a statisztikai műveletek automatizálására való törekvés az összetettebb folyamatok részeként.

Kevés program vagy szoftvercég éri el az arany életkort, amit az SPSS ünnepel 2018-ban. Méltó pillanat, ugyanakkor érdekes és tanulságos röviden áttekinteni az SPSS keletkezésének történetét. De nem csak az évforduló miatt, hanem mert meglepő módon az SPSS tárgya manapság kurrens közéleti téma is. Szinte közhelyszerű mesterséges intelligenciát (MI ~ AI, Artificial Intelligence) vélni a különféle eszközök, folyamatok működésének hátterében. A matematikai statisztikai algoritmusok jelenléte nyilvánvaló a mesterséges intelligenciának is nevezett fejlesztésekben.

Napjainkban egyre inkább érzékelhető az AI-narratívák bulvárszintet is tematizáló hatása. Ez hasonló jelenség most a XXI. század elején, mint a relativitáselmélet vagy a freudizmus kávéházi, illetve irodalmi szerepe a XX. század elején. Sajnos elég szerencsétlen szóalkotás a mesterséges intelligencia kifejezés. Többek közt félrevezető sugallata van, mivel az intelligencia szót sokszor a tudat, öntudat, gondolkodás szavak szinonimájaként használják, esetleg úgy is vélekednek róla. Néha az ember, hajlamos intelligenciaként „érzékelni” egyszerű alapértelmezéseket (default) kezelő mechanizmusokat is. Az ilyen attribúció egyrészt értelmezhető az úgynevezett „AI effect” (hiv2) kontrasztjaként, és így nevezhető akár AI komplexusnak is, másrészt magyarázható a Piaget-féle mágikus gyermeki világkép elméletének érvénysülésével (hiv3). Mindemellett nyilvánvaló, hogy például egy akármilyen magas szinten sakkozó gépnek sincs több köze a tudathoz, mint egy kilincsnek. Viccesnek tűnhet, de még az AI-val komolyabban foglalkozó szakmai blogokon is fellelhető olyan típusú elmélkedés, hogy „A lineáris regresszió tényleg gépi tanulás?” (hiv4), avagy mikortól tekinthetők bizonyos statisztikai algoritmusok az AI valamely szintjének. Vigasztalásként ugyanazon a portálon található a következő címmel is egy bejegyzés: „A természetes stupiditás veszélyesebb, mint a mesterséges intelligencia”. (hiv5)

Óvatosabb, tapintatosabb megfogalmazást olvashatunk a jelenségről Walter Isaacson: Innovátorok című (hiv6) könyve bevezetőjében: „… a mesterséges intelligencia (...) hajszolása rendre sokkal kevésbé gyümölcsözőnek bizonyult, mint az ember és gép közti partnerség vagy szimbiózis lehetőségének megteremtését szolgáló próbálkozások”.

Ekkoriban a számítógépek még lyukszalaggal és/vagy lyukkártyával működnek, nagy termet töltenek be, egy bit ábrázolása relével valósul meg, egy bit akkora, mint egy villanykörte...

Az SPSS születése

1950 - Megjelenik Turing cikke a mesterséges intelligencia teszteléséről (Turing-teszt)
1952 - Mrs(!) Grace Hopper: első compiler; Neumann: első modern számítógép (UNIVAC)
1954 - A Texas instruments bemutatja a szilícium tranzisztort
1958 - Jack Kilby bemutatja az első integrált áramkört (microchip)
1960 - Paul Baran kidolgozza a csomagkapcsolás elvét
1963 - Licklider: felveti egy intergalaktikus számítógép hálózat tervét; Engelbart és Bill English megalkotja az egeret
1965 - Moore: a mikrochipek teljesítménye évente duplázódik; Ted Nelson: első hipertext témájú cikk

A történet 1964-ig nyúlik vissza, amikor a chicagói Stanford University Politikatudományok Tanszékén Norman H. Nie és Dale Bent végzős hallgatók feladata volt saját dolgozataikon kívül a statisztikai adatfeldolgozás támogatása az egyetem oktatói és kutatói felé. Állandó frusztráltságot okozott számukra az akkori számítógépeken fellelhető sokféle adatfeldolgozó program használata, mivel azok eljárásonként más és más egyedi elv, programnyelv vagy szintaktika alkalmazását igényelték, saját program kiegészítésekkel, elégtelen dokumentációk alapján, hatalmas időráfordítással. Ha volt is valami szegényes dokumentáció, nyelvezete inadekvát volt a társadalomtudományok művelőinek.

Frusztrációjukat feloldandó és tapasztalataikat hasznosítandó Bent és Nie elkezdtek megtervezni egy egységes integrált programrendszert, amely megkönnyíti a rutinszerűen előforduló művelek elvégzését az adatelőkészítéstől a statisztikai elemzéseken át a társadalomkutatók számára is értelmezhető eredmények megjelenítéséig. Egy-két éven keresztül maguk fejlesztették a már akkor is létező programok (pl. BMD) alapján saját programcsomagjukat, amely végül előfutára lett a jelenlegi SPSS-nek. 1967-ben csatlakozott a projekthez egy igazi számítógépes szakember Hadlai (Tex) Hull, aki végre korszerűen működő rendszerré fejlesztette a folyamatot az akkor már széles körben használt Fortran programnyelven. Ennek köszönhetően más Fortran fordítóval rendelkező számítógépre is közvetlen áthelyezető csomag született. Bár az SPSS rendszernek sok hiányossága volt, megfelelően kielégítette a társadalomtudományok akkori adatelemző igényeit. Az SPSS alkalmazásának hatalmas hatása lett a társadalomkutatásokra.

Norman Hugh Nie (1943-2015)), nem csak az IBM számára 1,2 milliárd dollárt érő SPSS atyjaként ismert. Nagy hatású tudós, szociológusként az amerikai szavazók viselkedését kutatta, amelyről több könyvet is írt, (pl.: The Changing American voter), és tucatnyi cikke jelent meg a politikatudományok területén. Munkásságáért számos díjban részesült, 2009-ben az Amerikai Tudományos Akadémia tagja lett.)

Az SPSS innovátorok a számítástechnikában akkoriban szokásos önzetlenséggel nyílt rendszerben gondolkodtak. Abban reménykedtek, hogy más szakemberek folyamatosan tökéletesítik, javítják, módosítják és bővítik a rendszert. Akkoriban az észak-amerikai egyetemek rendelkeztek úgynevezett harmadik, később negyedik generációs számítógépekkel. (IBM7090, IBM 360 és CDC verzió). A programot nem párbeszédes formára tervezték, eleinte kötegelt üzemmódban (batch) futott lyukkártya vezérléssel. Később viszont óriási siker volt a Stanfordon, amikor bevezették a szövegszerkesztővel terminálról már majdnem párbeszédnek is tekinthető táv-kötegelt üzemmódot.

Nemsokára megvalósult az interaktív párbeszédek lehetősége, amihez az SPSS is igazodott. Az egész világon egyre többen próbálkoztak – Magyarországon is – saját, hasonló célú rendszerek fejlesztésével. Az SPSS alkotói elkezdhettek aggódni saját rendszerük esetleges elavulása miatt, de ez persze másképp történt.

IBM 360 - A korai SPSS verziók futottak ilyen gépeken.

Az SPSS termékké lesz

1968 - Noyce és Moore megalapítják az Intelt, és felveszik Andy Grove-ot.
1971 - Bemutatják az Intel 4004 processzort; Ray Tomlinson feltalálja az e-mailt
1973 - Bob Metcalfe/Xerox: Ethernet; Vint Cerf és Bob Kahn: TCP/IP protokoll
1974 - Piacra kerül az Intel 8080

1968-ban jelentik be hivatalosan is – „Statistical Package for the Social Sciences” néven – az SPSS programcsomag születését. Nie és Hull a Chicagói egyetem, illetve az egyetem könyvtárának támogatásával kezdik terjeszteni az SPSS-t, azaz megszervezték, hogy minden egyetem használhassa a programot – ingyenesen. Eredetileg egyáltalán nem gondolták, hogy erre céget alapozzanak. Mindenki folytatta saját karrierjét, Hull az Egyetemi Számítóközpont vezetője lett, Nie eleinte csatlakozott az amerikai Nemzeti Közvélemény Kutató Központhoz, de végül visszatért a Stanfordra és a Politikatudományok Tanszék vezetője lett. Bent visszament szülőhazájába, Kanadába, az Alberta Egyetem ajánlatát elfogadva.

Közben az SPSS járta a saját útját, fokozatosan egyre népszerűbb lett és bármiféle reklámtevékenység nélkül 1974-re elérte az évi 200 ezer dollár bevételt. A bevétel persze csak az 1970-ben a McGraw-Hill kiadásában megjelent első SPSS felhasználói kézikönyv eladásaiból származott, amely hamar elkelt 700 ezer példányban. Nie úgy fogalmazott: „Ez olyan, mintha a Gillette borotva eladások profitja a pengék árából származna”.(Hiv1) Bár penge helyett inkább borotvahabot is mondhatott volna. Megjegyzendő, hogy a korai SPSS felhasználói kézikönyvek sem szimpla menü leírások voltak, hanem a társadalomkutatók számára is érthető, valódi kutatásokból származó érdekes példákkal magyarázott statisztikai praktikumok.

Az SPSS főleg a felhasználói kézikönyv minőségének, praktikusságának és nem utolsó sorban elérhetőségének köszönhetően olyan sikeres és jövedelmező lett, hogy 1971-ben az amerikai adóhatóság megállapította, az SPSS nem csak szoftvertermék, hanem szoftvercégnek tekintendő, ez pedig veszélyezteti az egyetem adómentességét.

Norman H. Nie, Dale H. Bent and C Hadlai Hull. SPSS User Guide 1970. McGraw-Hill, az első kiadás hamar elkelt 700 ezer példányban, ebből csak 3 darab Európában.

Az SPSS céggé válik

1975 - Az MITS bemutatja az Altair első személyi számítógépet
1975 - Paul Allen és Bill Gates megírják a BASIC-et, majd megalapítják a Microsoftot
1975 - Steve Jobs és Steve Wozniak megalkotja az Apple 1-et
1977 - Apple II

1975-ben hivatalosan is céggé nyilvánítják az SPSS-t. Vállalatként is az egyetemi, akadémikus területre alapoznak, ellentétben a versenytársakkal (pl.: SAS). Nie és Hull még néhány évig továbbra is csak részidős kedvtelésként tekintettek az SPSS menedzselésére. Ehhez képest az SPSS rohamosan terjedt üzleti és kormányzati területen is. Például a NASA is használta az űrsiklóknál a meghibásodások közötti átlagos üzemidőt becslő számításokra, vagy az amerikai Nemzeti Erdészeti Hivatal a Nemzeti Parkokban előforduló balesetek és medvetámadások riportolására. Az SPSS egyre kedveltebb eszköz lett a fogyasztói piackutatás területén is (pl.: Procter & Gamble).

Egyre többen köszönhették, és köszönhetik ma is megélhetésüket az SPSS-el való munkának, oktatásnak. Az SPSS-hez való hozzáértés gyakorlatilag külön szakmává vált, sőt több szakmává, akár statisztikai képzettség nélkül is. Bizonyos cégeknél például DP-snek nevezik azokat, akik SPSS-el „csupán” adatelőkészítést és/vagy táblázást (Data Processing) végeznek, többnyire persze profi programozó képességekkel, hiszen általában igény a gyorsaság, illetve az esetlegesen „ipari” mennyiségben szükséges műveletek automatizálása. (A táblázási munkába itt beleértendő a táblacellák – százalékok, átlagok – közti különbségekhez a szignifikancia jelzések esetleges megjelenítése is.)

Az SPSS PC/DOS korszaka

1980 - Az IBM megbízza a Microsoftot egy PC operációs rendszer kifejlesztésére
1983 - A Microsoft bejelenti a Windows-t
1984 - Az Apple bejelenti a Machintosh-t

1984-ben megjelent az SPSS PC/DOS változata, ezzel az SPSS az első cég lett a saját kategóriájában, akinek nem csak nagyszámítógépen futhatott az applikációja. Kezdett kibontakozni az SPSS vezető szerepe a saját iparági szegmensében. Fontos fejlemény volt a Microsofttal való partnerség, főleg az SPSS grafikai megjelenésének vonatkozásában. Ebben az időben kezdtek létrejönni a nemzetközi SPSS képviseletek. Hollandiában már 1981-től, de 1990-re az SPSS 90 országban van jelen, köztük a Szovjetúnióban és Magyarországon is. Az SPSS /PC+ 4.0 még DOS-os (akkor már volt MAC-es is) változata annyira jól bevált, hogy sokan ma is használják. Különösen a Data Entry modulja nagyon népszerű ma is, főleg az adatrögzítésre szakosodott cégeknél, mert bár DOS-os felületen és korlátozott változószámmal működik, de egyszerűen megtervezhető kontrollált adatbevitelt biztosít SPSS típusú adatfájlt eredményezve.

Az SPSS Windows korszaka

1991 - Linus Torvalds bemutatja a Linux kernel (rendszermag) első változatát
1991 - Tim Berners-Lee bejelenti a World Wide Webet; Marc Andersen pedig a Mosaic böngészőt
1994 - Justin Hall elindítja az első blogot

Jack Noonan jelentős iparági tapasztalattal csatlakozik az SPSS-hez, mint új vezérigazgató. Norman Nie az igazgatótanács elnöke lesz. 1992-ben debütál az SPSS első Windows-os változata az SPSS 5. Noonan megnyitó ténykedése egy sales csapat felállítása. Az SPSS megcélozza az üzleti világot nem csak tartalmilag, árazásban is. Az SPSS szorgalmazza a nem csak hivatásos statisztikusok számára az adatbányász funkciók kihasználását. 1993-ban az SPSS-t jegyzik a Nasdaq-on, a nettó éves bevétel több mint 50 millió dollár és gyorsan emelkedik. 1995-ben bejelentik a www.spss.com honlapot.

Az SPSS növekedési pályára áll

1997 - Az IBM Deep Blue sakkszámítógépe legyőzi Garri Kaszparovot
1998 - Larry Page és Sergey Brin elindítja a Google-t

1996-ra a bevétel eléri az évi 84 millió dollárt, és egyben az SPSS fokozottabb növekedési stratégiába kezd, felvásárol több statisztikai szoftvercéget, köztük az akkor magyarországi akadémikus körökben is népszerű BMDP-t, és a piackutatás világban bajnok táblázó programot (Quantum) fejlesztő Quantime-világot.

1998-ban az SPSS felvásárolja az ISL-t (Integral Solutions Limited), ezzel megszerzi a Clementine adatbányász programot, amit kifejezetten gépi tanuláshoz kifejlesztett programnyelvek alapján hoztak létre. A Clementine, későbbi nevén Modeler hamar a cég húzó termékévé vált. Megoldották, hogy a Clementine-on belül a hagyományos SPSS is kezelhető legyen.

Az SPSS az üzleti világot célzó újításokkal bővítve termékkínálatát, a legnagyobb szereplővé kívánt válni – és az is lett – az üzleti intelligencia szoftver piacán. Jack Noonan új cégküldetést hírdetett, „a megnövekedett adatmennyiség hatékony kezelésével támogatni az adatvezérelt döntéshozást”.

Új értelmezést kapott az SPSS rövidítés is: „Statistical Product and Service Solutions”. A sors szójátéka, hogy aki ezt bejelentette, David Nicols akkori poziciója: Senior Principal Support Statistician – szintén SPSS-el rövidíthető. Ezután az SPSS szó csak logóként él tovább, az ezt követő szavak jelzik, melyik SPSS termékről van szó, például a Statistics vagy a Modeler utal az eredetileg SPSS vagy Clementine nevű szoftverre.

Az SPSS új piaci résekre fókuszál: szöveg, audio, video anyagok adatbányászata

2001 - Jimmy Wales Larry Sangerrel elindítja a Wikipédiát

2001-ben a bevétel évi 176 millió dollár. Az SPSS többféle „Az első xxx legjobb” listán szerepel, például a Forbes legjobb 200 vagy a Dolgozó Anyák legjobb 100 kisvállalat listáján. Az SPSS az idők folyamán számtalan számítástechnikai és egyéb díjazásban részesült, viszont ő maga is díjazóvá vált az SPSS innovatív alkalmazói felé.

Néhány a számtalan díjból, amit az SPSS elnyert.

Az új évezred elején az SPSS negyed milliónyi ügyfelet szolgál ki, több mint 100 országban, mindenféle területen: akadémikus, bank, kiskereskedelem, pénzügy, kormányzat, egészségügy, biztosítás, telekommunikáció, piackutatás. A leggyakoribb üzleti alkalmazási célok felismerni és megakadályozni a lemorzsolódást, csalást, növelni a bevételt, csökkenteni a költségeket, hatékonyabban működni. Az SPSS megkerülhetetlen a közvélemény kutatás, piackutatás, CRM és bármiféle kérdőíves alapú projektek esetén.

A 15. verzióra az SPSS-t teljesen átírják Java programnyelvre, felhő-üzemmód képessé válik, megvalósul több külső nyelv integrációja, azaz független vagy parancs szintaktika részeként is alkalmazhatók R, Python, .Net és Java szkriptek.

Erősödik a prediktív statisztikai szemlélet. Ennek egyik következménye, hogy a 40. évfordulót nagy izgalomban ünnepelő SPSS büszkén, de a felhasználók legnagyobb megdöbbenésére hirtelen átnevezte a céget és a programot is PASW-re (Predictive Analitics Softwares). Ezt a szokatlan, bár egészen találó nevet másfél év múlva az IBM változtatta „vissza” IBM SPSS-re.

Az SPSS IBM korszaka

2011 - Az IBM Watson megnyeri a „Jeopardy!” című vetélkedőt

A közelmúltat már csak néhány utalással jellemezzük. Miután az IBM 2009-ben 1,2 milliárd dollárért felvásárolta az SPSS-t, felhasználói szemmel úgy tűnt, mintha az IBM az SPSS Statistics-ot és a Modelert esetleg összeolvasztva egy már korábban felvásárolt üzleti elemző program (Cognos) alá kívánná rendelni, de szerencsére nem így történt. Viszont mindkét programban folyamatosan fejlesztenek olyan funkciókat, amelyek közelítik a modellezési lehetőségek technikáját, és a felhasználói élményt egymáshoz.

Már korábban is lehetett az SPSS-ben külső/belső programnyelveken fejlesztett saját vagy szerzett szkripteket használni, de az okos telefonok mintájára „okos SPSS”-nek nevezhető verzió, illetve az okostelefonoknál már megszokott módon SPSS-es internetes applikációkat letöltő oldal csak az utóbbi pár évben jelent meg. Különös, hogy az SPSS, de később az IBM is az applikációkat szemérmesen csak kiterjesztéseknek nevezi.

Az SPSS állandó újjászületése – folyamatos megtartva megújulás

Az idők folyamán óriási szakirodalma keletkezett az SPSS-nek. Legnépszerűbbek az SPSS saját korai ’User guide’-ai, és számtalan SPSS inspirálta könyv próbálja vonzóvá tenni a statisztikát a nem matematikusok számára is. Az SPSS az egész világon tantárgy a felsőoktatási intézményekben.

„Isten hozott a statisztika poklában”– ezzel a címmel próbálta a pszichológus hallgatókat is az SPSS közelébe csalni egy sussexi egyetemi honlap (hiv9), sikeresen, a honlap tartalma bestsellerré vált könyvként is megjelent. Több nyelven, magyarul is írtak túlélőkészletnek titulált könyvet az SPSS-hez (hiv10), teljesen más tartalmakkal. Felemelő, hogy ilyen témájú könyvek is lehetnek bestsellerek (hiv11), de vajon mi a titka, hogy az SPSS maga is túlélő?
Időleges hiányosságaihoz képest az SPSS évről évre sorozatos újításokkal jelentkezett, melyek valamennyire orvosolhattak bizonyos elégtelenségeket vagy aktuális kihívásokat. Tekintsük például a hipotézis teszteléseket, ami kezdettől fogva az SPSS legfőbb ügye. Az első SPSS változatokban elérhető klasszikus szignifikancia alapú hipotézis tesztek néhány verziónként kiegészültek (hiv12), előbb a kismintákra is érvényes ún. egzakt próbákkal, majd automatizált tanuló-teszt minta összehasonlításokkal, később a bootstrap eljárással és a szimulációs technikákkal. Csak a legutóbbi verzióba kerültek a Bayes-féle statisztikák, amelyek felhasználják az MCMC (Markov-Chain – Monte Carlo) mintageneráló algoritmusokat is. (Megjegyzendő, hogy az SPSS AMOS modulban már 15 éve vannak MCMC-t használó eljárások.) Az SPSS Modeler pedig szingifikancia számítás helyett inkább fontosság mutatót (importance coeffitient) használ, ami a modell erejét, illetve a modellt alkotó elemek hozzájárulásának mértékét fejezi ki a magyarázható információ százalékában.

2015-ben megdöbbentő bejelentés sokkolta a szignifikáns statisztikák hajszolóit. Egy vezető amerikai alkalmazott szociálpszichológiai lap (hiv13) megtagadta a szignifikancia számításokon alapuló cikkek megjelenítését. Hoppá! Ismert, hogy a Sir Ronald Aymler Fisher angol tudós által magalkotott szignifikancia-szint fogalom már megszületése (1935.) után nem sokkal indulatokat váltott ki. Amikor Neyman és Pearson bevezette az első és másodfajú hiba fogalmát, Fisher a másodfajú hibát a mentális zavar valamiféle indikátorának csúfolta, és persze a méltó válasz sem maradt el (hiv14). Ma pedig egy tudományos lap érvénytelennek nyilvánítja a klasszikus szignifikancia alapú hipotézistesztelést. Itt nem részletezzük, hogy mi vezetett ehhez a nem előzmények nélküli fejleményhez, egy KSH folyóirat (hiv15) 10 féle szignifikancia tesztekkel kapcsolatos problémát elemez. Két okot mégis említünk, egyik a szignifikáns és szubsztanciális különbség összekeverése, a másik a statisztika erőltetett alkalmazása a természettudományokkal szembeni kisebbrendűségi érzet kompenzálása gyanánt. Néha már-már statisztokráciáról vagy statisztika-mérgezésről lehetne beszélni, (a technokrácia, pszichokrácia vagy a pszichológia-mérgezés szóalkotásokat utánozva). Ehhez – cseppet sem elítélhető módon – az SPSS puszta létezésével nagymértékben hozzájárult, a statisztikai módszerek felelőtlen alkalmazói által. Ám – Ciceróval szólva – dícsérni jöttem az SPSS-t, nem temetni.

Az SPSS sztori 50 év után is tovább folytatódik

Lehet reménykedni vagy találgatni, hova képes még fejlődni az SPSS. Egy lehetséges irány például, amit a lengyel SPSS képviselet utódcége (hiv16) már meg is valósított PS IMAGO néven. Ez az SPSS Statistics-nek egy dashboard-szerű környezetbe ágyazott működtetése, amelyben automatizálható a teljes adatfeldolgozási és modellezési folyamat vagy annak bármely része az adateléréstől az eredmények publikálásáig, akár a dashboard-on meghatározható esemény vagy időpontfüggő időzítéssekkel.

Az IBM az 50. évforduló kapcsán látványos újdonságokat harangozott be. Az SPSS az aktív felhasználók közreműködésével alakul tovább, egy teljesen újratervezett felhasználói felület által biztosított folyamatos felhasználói visszajelzések szerint.

Előzetesen még egy kis spoiler: Lehetséges lesz az output ablakból ismételt végrehajtást indítani akár az eredeti output felülírásával – módosított paraméter, szintaktika vagy adat alapján. Ez emlékeztet az Excel adatcella kapcsolatok miatti automatikus változások élményére. Az analízis menü kiegészül az elemzés folyamatát „intelligensen” támogató művelet választó felülettel.

Prediktív szemlélettel, ha az IBM is úgy akarja, lehet még 100 éves SPSS évforduló is.

A szerző, Könyves Tóth Előd miért szereti az SPSS-t?

Szoftver ergonómiailag, az anomáliák ellenére is, az SPSS jól tervezett, kedvelhető, a feladathoz vagy felkészültséghez illő többfajta üzemmódot kínál. Interaktív felülete oktatási didaktikát sugall, szintaktikai felülete önadminisztrálja a munkát.
Élvezetet lelek a különböző matematikai statisztikai módszerek nem matematikusok számára való szemléltetések kitalálásában, ráadásul még programozói ösztöneimet is kiélhetem, az SPSS számomra hobby is.
Az SPSS világa önmagában is végtelen, de tetszik, hogy az SPSS révén egészen más területekkel és képviselőivel kerülök kapcsolatba, pszichológia, orvostudomány, közgazdaság, szociológia, irodalom, csillagászat, mezőgazdaság, tűzoltóság, óvoda, „AI”, stb.)

Magyarországi vonatkozások:

Azt, hogy az SPSS mennyire aktuális volt, jelzi, hogy az egész világon, és Magyarországon is az 1970-es évek végétől sorban születtek statisztikai programcsomagok. Itt most csak a magyar vonatkozásokat mutatjuk:

SZOCPROG: Füstös László – Manchin Győző – Tóth Károly: Első hazai társadalomstatisztikai programrendszer (1977. és később PC változat is megjelent)
KVR – Könyves Tóth Előd, MTA Pszichológiai Kutató Intézete (1979. FOCAL nyelven, TPAi lyukszalagos,, teletype-os, képernyő nélküli gépre)
ISES – Mérő László – Andor Csaba – Joó András: Interaktív statisztikai kiértékelő programrendszer Commodore—64 számítógépre (kb. 1986.)
PSZICHOSTAT Commodorra (1989) Vargha-András- Izsó Lajos
MiniStat (1994) Vargha András (1999) Vargha-Czigler
ROPstat a MiniStat Windows változata (2005-) – Varga András ELTE BTK Pszichológia
A ROPstat még ma is használatos, direkt sokféle más programcsomagokban el nem érhető módszert is tartalmaz)

A cikkben megjelölt hivatkozások:

1 - „Real Stats. Real Easy.” – az SPSS kilencvenes évekbeli szlogenje volt
2 - Wikipedia – AI effect ~ MI-hatás, sajnos mindenhol hiányzik a „másik oldal” megfogalmazása
3 - KTE - saját felvetés, először a „dataSTREAM, Machine Learning – Learning Machines” Clementine konferencián 2017.április 29. www.clementine.hu/hirek-2/datastream-2017
4 - www.kdnuggets.com/2017/06/regression-analysis-really-machine-learning.html
5 - www.kdnuggets.com/2017/n40.html Oct 18: Natural Stupidity is more Dangerous than Artificial Intelligence
6 - Walter Isaacson: Innovátorok – Hogyan indította el egy csapat hacker, zseni és geek a digitális forradalmat (2015. HVG)
7 - pl.: www.fundinguniverse.com/company-histories/spss-inc-history/
8 - www.statisticshell.com, book: Dr. Andy Field: Discovering Statistics Using IBM SPSS Statistics (2017. 5th Edition)
9 - Norman H. Nie, Dale H. Bent and C Hadlai Hull: SPSS manual (1970. McGraw-Hill) (Bestseller)
10 - Székely Mária – Barna Ildikó: Túlélőkészlet az SPSS-hez (első kiadás 2002. Tipotex)
11 - Julie Pallant: SPSS Survival Manual (2000. McGraw-Hill/ 2010. 6th Fully Revised Edition) (Worldwide Bestseller)
12 - Könyves Tóth Előd: Megbízhatók-e a szignifikanciák? (2012.dec. Marketingkutató, #03 / NRC )
13 - David Trafimow - Michael Marks in Basic and Applied Social Psychology, 2015.02.12. Editorial: „… the null hypothesis significance testing procedure (NHSTP) is invalid”, „… Confidence intervals suffer from an inverse inference problem that is not very different from that suffered by the NHSTP.”
14 - Vancsó Ödön: A statisztikai következtetések elmélete kialakulásának állomásai (2006. PhD dolgozatban)
15 - Bárdits Anna – Németh Renáta – Terplán Győző: Egy régi probléma újra előtérben: a nullhipotézis szignifikanciateszt téves gyakorlata (Statisztikai Szemle, 94. évfolyam 1. szám)
16 - www.psimago.pl (PS - Predictive Solutions - Formerly SPSS Poland)

A cikk eredetileg az Xperience&Research Magazin 2018/I. lapszámában jelent meg. A magazin ingyenesen megrendelhető a This email address is being protected from spambots. You need JavaScript enabled to view it. e-mail címen.

A koronavírus a hírekben is uralta a tavaszt

Iparág: Biztosítás

A világméretű járvány a kínai Vuhan városából indulva a tavasz során végig söpört Európán, az amerikai kontinens északi részén, és napjainkban Latin-Amerika lakosságát és döntéshozóit állítja komoly kihívások elé. A járvány koncentrált terjedése és helyi szintű lecsengése mentén felbukkanó új helyzetek, kihívások és válaszok erőteljesen befolyásolták a lakosság mindennapjainak alakulását. A hang- és szöveganalitikai elemzéssel foglalkozó Clementine szakértői annak jártak utána, hogy a vírushelyzet egyes fázisai mennyire befolyásolták a legnagyobb hazai hírportálok cikkeit, témaválasztását. A 24.hu, a 444.hu, az Index, az MTI, az Origo, a Portfolio, és a QUBIT cikkeit a szakértők az IBM SPSS Modeler és Python-szoftverek segítségével elemezték. A magyar nyelvű szövegekből álló strukturált adatbázis előállításához a saját fejlesztésű ClemTEXT szoftverüket is használták eszközként, hiszen a kutatáshoz a szövegek nyelvtani előkészítése is szükséges volt.

A vizsgált hírportálokon 2020. január 26. és június 29. között több, mint 30 000 hír jelent meg a koronavírushoz kapcsolhatóan. Ezekből legaktívabban az Index vette ki a részét, a feldolgozott írások 27,3%-a itt jelent meg.

Időszakos trendek
Az elemzésből kiderült, hogy a koronavírussal kapcsolatos hírek, információk kezdetben 3-4 nagyobb témakör köré csoportosultak, majd a járvány terjedésével egyre több aspektus került a média és ezen keresztül a közvélemény kereszttüzébe. Január végén a kínai helyzet, februárban inkább a világgazdasági hatások és a vírus globális terjedése került fókuszba, majd márciustól megjelentek a belföldi intézkedések és a hazai gazdaság is mint középponti témák. Áprilist az operatív törzs, a járványügyi állapot, valamint a belföldi veszélyhelyzet uralta, májusban pedig leginkább az ellenszer kérdésköréről olvashattunk. Megállapítható, hogy a hírek tökéletesen követték egy-egy járványügyi helyzet tipikus életciklusait.

„Számomra meglepő volt, hogy február közepéig tulajdonképpen úgy látszódott, hogy a vírus – legalábbis a hírek szerint – elkerül minket. Addig csak a külföldi helyzetről szóló tudósításokat, egészségügyi statisztikákat lehetett olvasni, a gazdasági hatás is csupán február közepén jelent meg a vizsgált oldalakon, hazánk helyzete pedig csak március elejétől került az újságírók középpontjába. Érdekesnek gondolom még azt is, hogy az ellenszer témaköre a szöveganalitikai elemzésben csupán májusban jelenik meg, mint önálló topik.” – mondta el Mészáros Evelin, a Clementine elemzője, a projekt vezetője.

Terjedés
A sajtó a hazai helyzet mellett folyamatosan beszámolt más országok vírusstatisztikáiról is. A fertőzöttek számát összehasonlítva az egyes országok említéseinek számával látható, hogy a cikkekben folyamatosan a leginkább fertőzött külföldi országokról tudósítottak: február közepéig Kína uralta a médiát, majd az első lombardiai megbetegedésektől kezdve egyre többször emlegették elő Olaszországot, mígnem március elején át is vette a vezetést.

Az egyedi járványkezelési stratégiát alkalmazó Svédország és a példaként figyelt Ausztria említésszáma folyamatosan alulmaradt a legfertőzöttebb országokétól.

A „leg”-ek
A leggyakrabban használt kifejezés egyértelműen a ’fertőzött’ volt, 27 273 alkalommal írták le az újságírók.

A University of Oxford az egyes kormányok válaszait egy úgynevezett Stringency Index (szigorúsági index) mérőszám segítségével hasonlítja össze, 0-tól 100-ig terjedő skálán. A Clementine a Magyarországra vonatkozó mutató változásait – azaz az egyes kormányzati intézkedéseket – vetette össze a hírek számával. A legaktívabb időszak mindkét tekintetben a március volt: az első korlátozások és az első elhunyt betegről szóló híradást követően szinte percről percre jelentek meg a lakosságot tájékoztató tartalmak. A március 15-i rendhagyó hosszúhétvégét követően keletkezett a vizsgált oldalakon a legtöbb cikk: megkezdődött a sok családot érintő digitális oktatás, bejelentették a határzárat – ezek a témák jobban megmozgatták a magyar sajtót, mint a gazdasági intézkedések április 6-i bejelentése.

„Több mint 15 éve foglalkozunk szöveganalitikával, úttörői vagyunk a magyar nyelv elemzését adatbányászati eszközökkel segítő technológia fejlesztéseknek. Jelen kutatásunkkal innovatív megoldásainkat állítottuk egy komoly kihívás elé: azt kívántuk bemutatni, hogy a szóhasználatukban, stílusukban széles skálán mozgó újságírói tartalmak között képesek vagyunk a statisztika eszközeivel összefüggéseket felmutatni. A módszertan természetesen alkalmazható bármilyen szöveg- és hanganalitikai megközelítést igénylő feladat, probléma megválaszolásához”” - mondta el Körmendi György, a Clementine ügyvezetője.

Bevezetés az IBM SPSS Statistics programrendszerbe

Bevezető szöveg: Az SPSS az egész világon közkedvelt komplex statisztikai eszköz, az adatelérés, előkészítés, elemzés, ábrázolás, modellezés, scoring és riportálás műveleteket egységes keretbe foglaló felhasználóbarát programrendszer.
Iparág: Biztosítás

Fél évszázados története alatt olyfajta sztenderd szerepe lett a hasonló célú programok között, mint az Excelnek vagy a Wordnek a táblázatkezelő és szövegszerkesztő programok közt.

Ha Önt is érdekli a szoftver fejlődése, ismerje meg az SPSS történetet Könyves Tóth Előd leírásában. Ha pedig nem csak a történetre kíváncsi, hanem mélyebben is megismerkedne az SPSS Statistics használatával, itt az alkalom! A hírlevelünkre feliratkozottaknak most könyvet ajándékozunk!

Könyves Tóth Előd, Ketskeméty László, Izsó Lajos: Bevezetés az IBM SPSS Statistics programrendszerbe című könyvéhez juthatnak hozzá partnereink, melyet előzetes egyeztetés után irodánkban lehet átvenni, hétköznaponként 9.00-17.00 óra között (This email address is being protected from spambots. You need JavaScript enabled to view it.).

Cassandra racionalizálja a call centereket

Iparág: Biztosítás

Az elmúlt két évben NKFI pályázati támogatásból valósította meg innovatív ügyfélszolgálati robotasszisztensét a Clementine, a hazai piac vezető adatbányász és szöveganalitikai megoldásokat szállító cége. A közel 180 millió forintos projekt eredményeként Cassandra rávilágít az ügyfél-interakciók rejtett, de hasznos információtartalmára, racionalizálja a call centerek napi működését, lehetővé teszi a működési és fenntartási költségek csökkentését, hozzájárul az ügyfélszolgálatok által nyújtott szolgáltatás minőségének javításához, támogatja az operátor kollégák szakmai fejlődését, és javítja az ügyfélélményt.

A technológiai fejlődés az elmúlt időszakban vitathatatlanul átalakítja a szolgáltató szektor ügyfélszolgálatainak működését is, hiszen egy algoritmusokkal felvértezett, fejlettebb mesterséges intelligencia képes ellátni a széleskörű szaktudást igénylő, ugyanakkor repetitív, magas monotonitás-tűrést igénylő munkaköröket is. Egy ilyen gépi asszisztens az interakciók valós idejű és mindenre kiterjedő feldolgozása révén alkalmassá válik nem csupán az operatív munka automatizált támogatására, hanem a vezetői döntésekhez szükséges adatok értelmezésére és értékelésére is.

„Az elmúlt 15 évben számtalan innovatív megoldással léptünk piacra, tevékenységünk szakértői lettünk a telekommunikációs, biztosítási és banki ágazatokban, ismerjük a problémákat, kihívásokat. Így merült fel egy olyan gépi intelligencia fejlesztése, amely megoldást nyújt az ügyfélszolgálatok esetleges hiányosságaira. Az általunk fejlesztett, Cassandra névre keresztelt megoldás egy felhő alapú valósidőben működő gépi intelligencia, amely komplex adat- és szöveganalitikai, valamint természetes nyelvi feldolgozási (Natural Language Process = NLP) technológiákat használva teljes körű támogatást ad a call centerek működtetéséhez.” – nyilatkozta Körmendi György, a Clementine ügyvezetője.

Ez a fáradhatatlan központi robotasszisztens széleskörű iparági specifikus szakismeretekkel rendelkezik, mindig mindenre emlékszik, így a legkülönfélébb problémákkal lehet fordulni hozzá. Szociálisan kellően érzékeny ahhoz, hogy felismerje az elégedetlenség legapróbb jelét is, ráérez az ügyfelek igényeire, könnyen megtalálja velük a közös hangot, és hasznos tanácsokkal segíti kollégái munkáját.

„Cassandra paradigmaváltást hozhat az ügyfélszolgálatok működésébe, hiszen automatizálja és robotizálja a folyamatokat, miközben hatékonyan tudja segíteni az adott vállalatnál dolgozók munkáját. A felhő infrastruktúrában működő platform könnyen integrálható a már működő rendszerekkel is, így gyorsan implementálható bármilyen folyamatba. Büszke vagyok arra, hogy szakértelmünkkel és a Nemzeti Kutatási, Fejlesztési és Innovációs Hivatal támogatásával nem csak egy új piacképes terméket hoztunk létre, hanem új kutató-fejlesztő kollégákkal is bővült a csapatunk” – tette hozzá Körmendi György.

A 2020. március 31-én zárult, közel 180 millió Ft-os projekt 118 845 079 Ft NKFI vissza nem térítendő támogatásból valósult meg.

Így szurkoltunk a vizes vb alatt

Iparág: Biztosítás

A közösségi oldalak közül a magyarok leggyakrabban a Facebook-ot használják, így a vizes vb alatt is itt született a legtöbb bejegyzés. A szurkolók több, mint háromezer nyilvános bejegyzésben osztották meg, hol és hogyan szurkolnak a magyar sportolóknak, milyen eseményeken vettek részt vagy melyik sportág a kedvencük. Kommentálták természetesen az eredményeket is.

Elemzésünkben azt vizsgáltuk, milyen hashtag-eket és szavakat, kifejezéseket használtunk a leggyakrabban az elmúlt napokban, a VB-vel kapcsolatban. Letöltöttük a #finabudapest2017 és #avizösszeköt hashtaggel ellátott nyilvános bejegyzéseket. Az adatokat rendszereztük és elemezhető formába hoztuk, különválasztottuk a hashtageket, a bejegyzés szövegét, valamint időpontját. Ezeket nem manuálisan, hanem szövegbányászati eszközökkel dolgoztuk fel, az IBM SPSS platformba integrált magyar nyelvi elemzésre képes ClemTEXT megoldásunk segítségével. Az eredményt videóban foglaltuk össze napi bontásban.

A #hashtag-ekből, szógyakoriságokból gyakorlatilag kirajzolódik a teljes program. Így például a nyitónapon még a #megnyitó vezetett, majd később az egyes sportágak, sportolók nevei, valamint a #döntö kifejezések is beléptek. A teljes vb ideje alatt leggyakrabban a #hajrá magyarok, a #vizilabda és a #duna aréna hashtag-eket írtuk le.

A sportágak közül a #szinkronuszas, a #toronyugras, az #úszás és kapcsolódó szavak, mint a távokra utaló 200, 400 vagy az versenyszámokra utaló vegyes, váltó, valamint a #vizilabda kifejezések szerepeltek leginkább, ezek közül is kiemelkedett a #vizilabda. A sportolók közül pedig a legtöbbször Cseh László, Hosszú Katinka, Kenderesi Tamás neve szerepelt hashtag-ként.

Itt a Torkos csütörtök 2018 országos listája

Iparág: Biztosítás

A népi kalendárium szerint Torkos Csütörtök napja minden évben a Hamvazó Szerda előtti csütörtököt jelenti – a böjt hosszú időszaka előtt ilyenkor szabad még egyszer mindenkinek jóllakni. A gasztronómiai egységek hosszú évek óta rendezik meg a maguk Torkos Csütörtökét, akciókkal csábítva széles tömegeket egy jó ebédre, vacsorára. A kezdeményezés utoljára 2016-ban kapott központi kommunikációs támogatást, tavaly megszakadni látszott a hagyomány, az éttermek nem voltak képesek ajánlataiknak a kellő hangerőt egyénileg biztosítani. Ezt az űrt igyekezett rendhagyó adatgyűjtési módszerével 2017-ben betölteni a statisztikai és szöveganalitikai szoftverek vezető hazai fejlesztője és forgalmazója, a Clementine.

’A Google és a Facebook különböző, a Torkos Csütörtökkel kapcsolatos keresőszavakra (pl. torkos csütörtök 2018, torkos étlap, stb.) adott nyilvános találatait dolgoztuk fel gépi szöveganalitikai technológiával. Először kulcsszavak alapján kiszűrtük a nem releváns találatokat (pl. hírek, tavalyi akciók, a Torkos Csütörtök elmaradásról szóló cikkek, nem éttermi oldalak), majd az ömlesztett, szöveges formában rendelkezésre álló keresési eredményeket strukturáltuk az éttermek nevének és - ahol lehetett - az akció tartalmának, időpontjának kinyerésével. A folyamat nagyrészt automatizált, a robotok munkáját elemzőink ellenőrzik.’- avat be a munkafolyamat részleteibe Körmendi György, a Clementine ügyvezetője. A találatokat a cég idén is megjeleníti egy Google térképen, mely a torkoscsutortok.info weboldalon érhető el. A csatlakozni kívánók természetesen akár közvetlenül is elküldhetik jelentkezésüket a This email address is being protected from spambots. You need JavaScript enabled to view it. címre.

A Torkos Csütörtök hivatalos napja idén február 15., de egyes éttermek február 8-án várják kedvezményekkel a torkoskodni vágyó vendégeket.

Nem azzal csábítanak a cégek, amire a munkavállalók vágynak

Iparág: Biztosítás

A felmérésből az is kiderül, hogy a már elhelyezkedett munkatársak számára fontos szempont a fizetés, a menedzsment és a karrierépítés. A pénzügyi szektorban foglalkoztatottak a legstresszesebbek, ezért itt a legerősebb az igény a terhelésnek megfelelő kompenzációs csomagra, ezzel szemben az IT szektor munkatársai a legelégedettebbek a munka-magánélet egyensúly biztosításával. A munkavállalók által megfogalmazott leggyakoribb kritikák: az úgynevezett Peter-elv jelenség, a kivételezés és a szervezeten belüli politika.

Az adatbányászati, statisztikai alkalmazások egyik vezető magyar szállítója, a Clementine szöveganalitikai technológiájának felhasználásával készült kutatásában feltérképezte és összehasonlította 25 nemzetközi vállalat karrieroldalát és a Glassdoor.com oldalon elérhető nyilvános, a 2014 és 2016 közötti időszakból származó munkavállalói véleményeket a mintában szereplő cégekről. A cég munkatársai és a velük együttműködő Sasvári Luca összesen 98 323 dolgozói véleményt elemeztek 5 különböző szektorból: FMCG, IT, pénzügyi szolgáltatások, ipar-elektronika, telekommunikáció. A Clementine olyan nemzetközi cégeket vizsgált, amelyek csaknem minden országban - így Magyarországon is - ismert munkáltatók.

Felelősség, átláthatóság, jogkörök, munka-magánélet egyensúlya
A vizsgált vállalatok karrieroldalát három téma uralja: a karrierépítés és előrelépés, az innováció, illetve a munkahelyi diverzitás és csapatmunka. Ezek a szempontok azonban nem tükrözik a munkavállalók igényeit, sem az adott cég munkatársak által kiemelt erősségeit. Különösen a pénzügyi szolgáltatási szektorban homogén az üzenet, itt az öt vizsgált cég közül négyen hangsúlyozták a kiemelkedő karrierlehetőségeket, a gyors előmenetelt. Azonban a potenciális jelölteket nem csupán arról kell meggyőzni, miért jó egy adott cégnél dolgozni, hanem arról is, miért jobb ott dolgozni, mint máshol. A munkavállalói igények között erőteljesen jelenik meg az egyéni felelősségvállalás, az átláthatóság, az autonómia és a munka-magánélet egyensúlyának biztosítása. A karrieroldalakon azonban ezekről a tényezőkről alig esett szó. Ahogy a munkatársak által erősségként említett képzéseket és tudásmegosztást is a csak egy szervezet emelte ki erőteljesen.

Fizetés, menedzsment, karrierépítés
A kutatás során a Clementine azt is vizsgálta, mivel elégedettek és elégedetlenek a már elhelyezkedett munkavállalók, milyen kéréseik vannak a menedzsment felé. A munkatársakat leginkább három témakör foglalkoztatja: fizetés és juttatások, menedzsment, illetve karrierépítés. Mindezeken belül pedig különösen érdekli a kollégákat, hogyan értékelik a kiváló, tehetséges munkatársakat. Kifejezetten hangsúlyos volt ez az igény a pénzügyi szolgáltatások területén, ahol a munkafolyamatok általában projektcsapatokban zajlanak. Az eredmény arra utal, hogy a vizsgálatban résztvevő piacvezető vállalatoknál már kialakult az úgynevezett tehetségspirál: a kiváló munkatársak híre újabb és újabb tehetséges munkatársakat vonz a szervezethez.

A pénzügyi szektor a legstresszesebb, az IT munkavállalók a legelégedettebbek
A banki, pénzügyi szektor mutatja a legegyedibb képet: a munka-magánélet egyensúly, a munkaterhelés, az utazás problémaköre itt emelkedik ki leginkább, és az ügyfelekkel kapcsolatban is ennek a szektornak van a legtöbb ellenérzése. Ez különösen a könyvvizsgálati, adó- és pénzügyi tanácsadási szolgáltatók sajátja: az adózási időszakok, határidők sűrű időszakokra osztják a munkavállalók évét, amikor a munkahelyi stressz számottevően megemelkedik. A kompenzáció, fizetés, juttatások témaköre éppen ezért itt merül fel leggyakrabban; kifejezetten erős munkavállalói igény a munkaterhelésnek megfelelő kompenzációs csomag.
Ezzel szemben az IT szektorban foglalkoztatottak a legelégedettebbek a munka-magánélet egyensúllyal, aminek hátterében egy új koncepció állhat. A munka-magánélet egyensúly itt már nem feltétlenül azt jelenti, hogy a munka mellett elég időnk van önmagunkra is, sokkal inkább azt, hogy a munkát integrálni tudjuk a magánéletünkbe, ezért sokszor rá sem eszmélünk arra, hogy dolgozunk. Az IT szektorból érkezett a legtöbb pozitív vélemény a home office, vagyis az otthonról dolgozás lehetőségével kapcsolatban. A kiterjedt IT munkahelyi kampuszok teljesen elmossák a két élettér közötti határokat: megannyi szórakozási és étkezési lehetőséggel győzik meg munkatársaikat arról, hogy tulajdonképpen a munkahelyen is otthon vannak, és emellett otthonról is dolgoznak.

Problémák: inkompetens vezetők, kivételezés, politika
Mind az öt vizsgált szektorban ugyanazokon a területeken - fizetés, menedzsment, karrierépítés - mutatkozik olyan probléma, amely a munkavállalókat érzékenyen érinti. Az egyik leggyakrabban említett rizikófaktor a Peter-elv jelenség, amikor a sikeres munkatársat előléptetik, majd az új pozícióban vezetőként inkompetenssé válik. A menedzsmenttel szemben gyakran megfogalmazott kritika a favoritizmus és nepotizmus is, vagyis, amikor a döntéshozók a rokonaikat, barátaikat részesítik előnyben az alkalmasabb, felkészültebb jelentkezőkkel szemben. Mindezek mellett még a szervezeten belüli politika és a szervezeti folyamatok - lassú döntéshozatal, bürokrácia - azok, amelyek kellemetlenséget okoznak a munkavállalóknak a Clementine szöveganalitikai kutatása szerint.

Sajtószemle szöveganalitikával

Iparág: Biztosítás

A Magyar Távirati Iroda a 2017. január 1. és december 31. közötti időszakból 53.932 hírt tárol archívumában, melynek anyagából több tucat online hírportál közöl információt. A szöveganalitikai megoldásokkal és adatbányászattal foglalkozó Clementine feldolgozta a belföldi híreket, így a hírelemző modell 7150 újsághírt olvasott el és értelmezett pillanatok alatt és tárta fel 2017 valóságát.

A csúcstartók
Az előforduló szavak gyakorisága tekintetében holtverseny alakult ki az első helyen: több mint 500 alkalommal fordult elő a férfi és a rendőr szó a hírekben, őket jelentős lemaradással követi Budapest, az ember, a Fidesz, a nő és a kormány. Érdekes, hogy a férfi szót másfélszer olyan gyakran említik a hírek, mint a nő szót, annak ellenére, hogy a nő főnévként és igeként is megjelenhet.
A legtöbbször előforduló személy Orbán Viktor volt, akit Soros György követett az említések számában. Utánuk Szél Bernadett és Mészáros Lőrinc következik, igaz, őket alig fele olyan sokszor említették, mint Orbánt és Sorost. A nem politikusok között Hosszú Katinka és Marton László neve tűnt fel több ízben, említéseik száma azonban összegezve sem közelíti meg például Mészáros Lőrincét.

Vannak olyan témák, események, személyek, amelyek hónapról hónapra visszatérnek a hírekben. A közúti balesetek nagy számára enged következtetni, hogy minden hónapban előfordultak a cikkekben az alábbi szavak: autó, vonat, sérült, rendőr, mentő, súlyos, áldozat, tragédia, halál. A kapott adatok alapján egyértelmű, hogy a hazai politikai közbeszédet leginkább meghatározó téma a menekült-kérdés volt: nem telt el hónap anélkül, hogy ne születtek volna hírek az alábbi szavakat tartalmazva: menekült, migráns, Soros György, ismeretlen, kerítés. Az örökzöld szavakból a bűn és bűnhődés folyamata is rekonstruálható: durva, brutális, nyomozás, ügyészség, bíróság, ítélet, börtön.

Időszakos trendek
A rendszeresen előforduló témák mellett természetesen az egy időszakot meghatározó rendkívüli események és a róluk szóló hírek is végig kisérték az évet. 2017 első felében például a leggyakrabban az olimpiáról beszéltünk: közel tízszer olyan gyakran szerepel a hírekben a szó, mint az átlagos gyakorisága.
Az évszakok tekintetében a téli hónapokban a szmog, a jég és Donald Trump körül forogtak a tartalmak, míg tavasszal már Szentendre vitte a prímet: nyolcszor többet szerepelve a hírekben, mint egyébként. Emellett a sztrájk, a BKV és a Borsod szavak gyakorisága nőtt meg jelentősen. Legmozgalmasabban viszont az évszak közepe telt, amikor Gulyás Márton és Áder János említése uralta a közdiskurzust, melléjük a CEU, bezárás, tüntetés, demonstráció, nagykövetség, tárgyalás és Dózsa György út szavak sorakoztak még fel.
Nyáron a sportok és a melegre utaló szavak említéseinek száma magasodott ki az átlagból. Átlagosan öt-hatszor gyakrabban találkozhattunk a Veszprém, a világbajnokság, és a vizes szavakkal, de kétszer olyan gyakran említették a Balatont is. A forróság és kánikula szavakat pedig közel tízszer annyi alkalommal írták le a cikkírók, mint egyébként.
Az ősszel született cikkben az átlagosnál jóval gyakrabban említik Kínát és Őcsényt, a tanár, az áldozat és a kérdőív szavakat, személyek közül Sárosdi Lillát, Marton Lászlót és Kerényi Miklós Gábort. Az évvégéhez közeledve szinte egyeduralkodóvá vált a karácsony, amit nagy lemaradással a jutalom és posta szavak követnek, emellett Hosszú Katinka és Cseh László nevét szokásosnál ismét gyakrabban olvashattuk.

Szöveganalitikával slágert? Lehetséges!

Iparág: Biztosítás

Az Axis of Awesome – ’Four Chord Song’ című produkciója óta köztudott, hogy nem feltétlen az egyedi, fülbemászó dallamok jelentik egy-egy zenei alkotás számára a siker kulcsát. A jól megválasztott szavak, kifejezések ugyanolyan fontosak a csúcsra jutáshoz. Ezt bizonyítandó, a szöveganalitikai megoldásokkal és adatbányászattal foglalkozó Clementine feldolgozta a 30. hét rádiós játszási listáinak Top 40 magyar nyelvű dalát, és a szövegek elemzésével vizsgálta a leginkább használt népszerű szavak, kifejezések előfordulását, rendszerességét. (Az elemzés alapjául szolgáló rádiós lista itt érhető el: http://zene.slagerlistak.hu/magyar-radios-top-40-slagerlista/2017/30.)

A módszertani szempontból első ránézésre sem egyszerű feladat (a dalszövegekből létrehozott adatbázis az SPSS Modeler szoftverben került tisztításra, -rendszerezésre, majd a Text Mining megoldás segítségével egy területspecifikus szótár kapcsolódott az adatokhoz) során kiderült, hogy a helyzet még bonyolultabb. A magyar nyelvű dalszövegek izgalmas részét képezik ugyanis azon kifejezések, melyek egy-egy kontextusban eltérő jelentéssel bírnak: mindenki ég a vágytól és sokan ezt éppen a kék ég alatt teszik; gyakran fúj a szél, miközben a szakadék szélén ácsorognak; de nyáron a hajunkat is feltűzzük, ha a lobog a tábortűz, meg ne égjen. Ezért olyan szótárt kellett létrehozni, amely tartalmaz a dalszövegekre jellemző szókészletet mellett olyan szabályokat is, amelyek kiküszöbölhetővé teszik a sok azonos alakú kifejezést, illetve felismerik a legjellemzőbb szószerkezeteket is.

Az elemzés végeredményeként készült ábráról kiderül, mit hallgatunk szívesen a nyáron, mik azok a kifejezések és trópusok, amelyek vissza-visszatérnek. Így már gyerekjáték lesz megírni a jövő nyár legnagyobb slágerét ;)

Tényleg mindent visz a „Fekete Péntek”?

Bevezető szöveg: Évről évre egyre nagyobbat robban, miközben fenekestől felforgatja a vásárlási szokásainkat – a Black Friday ma már megkerülhetetlen tényező a karácsony előtti időszakban. De vajon tényleg akkora népszerűségnek örvend? Megnéztük!
Iparág: Biztosítás

A Magyarországon 2013 óta jelen lévő, amerikai mintára átlagon felüli árkedvezményeket kínáló nap tulajdonképpen a karácsonyi bevásárlási szezon kezdetévé vált az elmúlt években.

Nem meglepő módon ilyenkor aktívak vagyunk a közösségi médiában is, így adatbányászaink megvizsgálták, hogy vajon milyen hashtag-ek jelennek meg a Black Friday kapcsán, mit vásárolunk, ki kommunikál egyáltalán, vagy éppen mit teszünk, ha mégis elkerülnénk. Elemzésünk során azt vizsgáltuk, hogy milyen kifejezéseket társítunk a #blackfriday hashtag mellett, és azokból milyen következtetések vonhatóak le szöveganalitikai módszerekkel.

Egyértelműen látszik például, hogy a 2017-ben november 24-re eső pénteki esemény előtt már egy héttel megkezdődött az akciók kommunikálása, kitartva egészen a Fekete Pénteket követő vasárnapig. Utóbbi annak is köszönhető, hogy sok cég már három napon keresztül kínálja kedvezményeiket, így a Black Friday ma már egyre inkább Black Weekend. A vizsgált posztokból az is kitűnik, hogy a tartalmak túlnyomó többsége (90%) az eladóktól származott, a vásárlói élmény - mint például a „Nézd ezt vettem a #blackfriday-en...” jellegű beszámolók jóval elmaradtak a boltok reklámjaitól.

Mit vásárolhatunk ilyenkor? Ma már szinte minden megtalálható a kínálatban, ugyanakkor a műszaki cikkek magasan vezetik az eladott termékek listáját. Ezen felül a ruházati termékek, lakberendezési tárgyak, kozmetikumok és a hobbi felszerelések is népszerűek a kedvezménnyel kínált lehetőségek között.

De mégis mekkora árengedménnyel kalkulálhatunk? 2017-ben az az esetek harmadában 20%-os kedvezményt kínáltak, ennél alacsonyabb engedményt csak 5%-ban kommunikáltak. Népszerűek még az 50%-os akciók, az esetek negyedében ezzel van dolgunk. Érdemes tehát készülni rá, élni vele!

Aki pedig a társadalom azon felébe tartozik, akit idegesít a felhajtás, akkor sincs gond, a hashtag-ek kiváló ötleteket adnak arra vonatkozóan is, hogy mit érdemes csinálni helyette: a pihenés, a kirándulás, de még a kutya sétáltatás is jó alternatíva lehet!

Ügyfélszolgálati termék NKFI támogatással

Iparág: Biztosítás

A kereskedelemhez, ill. a szolgáltatásokhoz kapcsolódó fogyasztás exponenciális növekedésével mind hazánkban, mind pedig külföldön óriási arányban nőtt az ügyfélszolgálatok forgalma. A szervezetek ezen egységei ugyan egy, a technológiai változásokra nyitott szegmenst jelentenek, az ügyfélkezelési gyakorlat azonban mégsem követi az iparágra jellemző technikai fejlődést. Az elmaradottság több területen is érezteti hatását: az ügyfélkezelés nem személyre szabott, a panaszos ügyek kivizsgálása és -felderítése lassú, az értékesítési potenciál pedig az azonnali beavatkozás hiányában elvész. A gépies rutinmunkát igénylő, csak szúrópróba-szerű minőségellenőrzés pedig emberi erőforrást vesz el a hozzáadott értéket teremteni képes folyamatoktól.

A Clementine által Cassandrának keresztelt termék célja gyakorlatilag iparágtól függetlenül támogatni a szakszerű, gyors és személyre szabott ügyfélkiszolgálást és a kapcsolódó minőségbiztosítást. Ennek alapját az ügyfélszolgálatok működésének modell-szintű lekövetése-, az emberi kognitív értelmezési-értékelési folyamatot modellezni képes gépi intelligencia- és a skálázható teljesítményű, felhő-alapú infrastruktúra szolgáltatja. A tervek szerint a szoftver azonnal implementálható formában kerül majd a piacra, egyediségét pedig a nyelvektől független használhatósága jelenti, szemben a jelenleg elérhető, hosszas vállalatra-szabási időszakot követve mindössze egy-egy elszigetelt, más rendszerekkel nem kommunikáló funkcionalitással és szinte kizárólag csak angol nyelvi környezetben használható megoldásokkal. A Cassandra magában foglal többek között olyan modulokat, mint az operátori protokolltartás ellenőrzése, a hangvétel-monitoring vagy email-szortírozás. Kiemelt előnye továbbá integrálhatósága, amely képessé teszi egyéb vállalati szoftverekkel való együttműködésre.

A kutatás-fejlesztés, valamint a piaci bevezetés pénzügyi hátterét a Nemzeti Kutatási, Fejlesztési és Innovációs Alap által kezelt, a hazai gazdasági társaságok által befizetett innovációs járulékból képzett pályázati alap biztosítja. A projekt összköltsége 178 865 137 Ft, ebből az NKFI vissza nem térítendő támogatási része 118 845 079 Ft-ot tesz ki. A támogatás elnyerésének alapfeltételei közé tartozott a munka során elvégzendő tudományos hátterű innováció, valamint a létrehozandó termék piaci potenciáljának előzetes felmérése és -tervszámokkal történő igazolása is.

A projekt 2018. április 1-én indult és 2020. március 31-én zárul majd. Az időszak alatt párhuzamosan haladnak majd a fejlesztési munkálatok, valamint a piacosítási előkészületek. Az első évre inkább az aktív kutatás lesz majd jellemző, fókuszában az optimális, szektorfüggetlen hang-, szövegfeldolgozási módszertan kialakítása, illetve a gépi ’gondolkodás’ és ’tanulás’ az emberi (operátori) működéshez történő igazítása áll. A Cassandra ügyfélszolgálati gépi-intelligencia rendszer fejlesztése és az értékesítés kezdeti lépései a második év tárgykörébe tartoznak majd.

Watsonnal magyarul

Iparág: Biztosítás

Watson hatalmas előrelépés volt a mesterséges intelligencia és NLP (natural language processing) alkalmazások területén, és rámutatott arra, hogy az alapvető technológiák már léteznek egy ilyen komplexitású rendszer létrehozásához. Mára minden eddiginél több kutató, fejlesztő, data scientist dolgozik világszerte azon, hogy ezek az alkalmazások beépüljenek a mindennapokba. A Google, a Facebook, az Amazon az életünk egyre több területén van jelen, Watson egyes elemei, például a szöveganalitikai alkalmazásai pedig egyre több üzleti szervezet működését teszik hatékonyabbá. Magyarországon is. Hiszen az alapvető technológiák magyar nyelven is adottak – és nem arra gondolok, hogy az androidos okostelefonomnak magyarul is tudok már diktálni, hanem itt teljes egészében magyar fejlesztésekről van szó. Sőt, alkalmazzák is ezeket a technológiákat a bankszektortól a telekommunikációs vállalatokon át a rendvédelmi szervezetekig – csak, hogy a saját megoldásaink felhasználási területeit említsem.

Létezik magyar nyelvű beszéd leiratozó rendszer, amely már több területen is bizonyított: call centerek alkalmazzák a nagy mennyiségben keletkező hangfelvételek szöveggé alakításához, hogy lehetővé váljon azok mélyebb elemzése; de élő tévéműsorok feliratozásához vagy bírósági jegyzőkönyvek elkészítéséhez is használják.
Létezik magyar nyelvű beszédszintetizáló megoldás, ezt hallhatjuk például a vasútállomásokon.
Léteznek magyar nyelvű szövegbányászati, NLP-eszközök, vannak magyar nyelvű szótárak, tanító korpuszok.

Ezekből a technológiákból olyan automata megoldásokat építhetünk, amelyek számos területen képesek hatékonyabbá tenni egy szervezet működését. Néhány példa a teljesség igénye nélkül:

Ha képesek vagyunk egy nagy, strukturálatlan dokumentumhalmazból információ kinyerésére, olyan összefüggésekre bukkanhatunk, amelyekre eddig nem is gondoltunk (felépíthetünk automatizált módon akár egy tudásbázist is).
Ha képesek vagyunk a hangot szöveggé alakítani és a leírt szövegben megadott szempontokat azonosítani, automatizálhatjuk a telefonos ügyfélszolgálat minőségbiztosítási folyamatainak jelentős részét.
Ha képesek vagyunk a szöveget feldolgozni, megérteni, akkor képesek lehetünk egy kérdésre automatikusan megtalálni a választ, így tehermentesíthetjük az ügyfélszolgálatot automata e-mail-kezelő rendszer vagy chatbot bevezetésével.

Ezek ma már létező alkalmazások, megoldások, vagyis minden adott ahhoz, hogy felépítsük a magyar Watsont. Igazából már el is kezdtük, amikor a Watson mögött álló szöveganalitikai rendszert megtanítottuk magyarul.

Hogyan tanult meg magyarul?

A Clementine-nál 2007 óta foglalkozunk magyar nyelvű szövegbányászattal SPSS-alapokon és fejlesztjük az erre épülő megoldásainkat. Számos hobbi, demó és pilot projekt után értünk el az első, éles üzemben működő alkalmazásunk bevezetéséig, de addig is nagyon sok tudást, adatot és szótárt halmoztunk fel, amelyek kifejezetten jól jönnek egy új eszköz tanításához és teszteléséhez.

A magyarítást az IBM Watson Explorer (WEX) nevű eszközével kezdtük, melynek alapjai gyakorlatilag „a szuperszámítógép Watson” alapjai is egyben.

Az első lépés volt, hogy megtanítottuk felismerni a magyar nyelvet.
A nyelvfelismerés a szövegbányászati feldolgozás nulladik lépése, így van ez a Watson esetében is: ahhoz, hogy tudja, hogy egy adott szövegre mely szabályokat, szótárakat kell alkalmaznia, először meg kell határoznia annak nyelvét.
A feladat megoldására számos megközelítés létezik. Minden nyelvre jellemző, hogy egyes szavak, speciális karakterek vagy karaktersorozatok gyakrabban fordulnak elő, mint más nyelvekben. A magyar nyelvre jellemző például a hosszú ékezetes karakterek alkalmazása (á, é, ő, stb), ám ezek hiánya nem jelenti azt, hogy biztosan nem magyar egy szöveg (gondoljunk egy fórumra, ahol a hozzászóló nem használ ékezeteket).
A feladatunk tehát az volt, hogy a magyar nyelvre jellemző karakter-, karaktersorozat-elosztást képezzük le egy szótár formájában.

A második lépés volt, hogy megtanítsuk „érteni” a magyar nyelvet.
Azaz, hogy megtanítsuk a magyar szövegeket mondatokra, szavakra bontani, a szavakat szótövezni és megállapítani a szófajukat. Mondhatjuk, hogy könnyű dolgunk volt: a Watson „csak” egy nagy, annotált tanítómintát várt el, amit mi az SPSS Modelerbe ágyazott CLEMTEXT megoldásunk – melynek alapja a Szegedi Tudományegyetem magyarlánc-alkalmazása – segítségével automatikusan elő tudtunk állítani. Persze kellett hozzá az évek során felhalmozott korpusz, ami főleg hírekből, blogbejegyzésekből állt össze, teljesen vegyes témában.
A korpuszunk több mint 9000 „dokumentumból”, 210 ezer mondatból állt. A stopszavak kiszűrése után a tanítómintánk több mint 38 ezer szótőt, kb. 110 ezer ragozott alakot és az ezekhez tartozó szófaji megjelölést tartalmazta.
A harmadik lépés, hogy megtanítsuk érteni az adott iparágat.
A Watson koncepciója bizonyos szempontból nagyon távol van az SPSS-nél megszokott működéstől, de alapjaiban azért sok a hasonlóság: szótárakra van szükségünk ahhoz, hogy definiáljuk, milyen típusú információt akarunk kinyerni a szövegből, ezek a szótárak pedig iparág-, domainspecifikusak.
Az elmúlt években számos szöveg-analitikai projektünk volt a legkülönbözőbb iparágakban, megtanultuk, hogy építsünk fel és szabjunk testre egy-egy iparági szótárat. Most pedig megtanultuk, hogyan tanítsuk meg mindezt Watsonnak.

Kell még nyelvet tanulni?

Van, aki azt várja, hogy néhány éven belül már nem kell nyelvtanulással foglalkoznunk, elég lesz egy kis kütyü, ami a fülünkbe téve valós időben fordítja nekünk, amit külföldi beszélgetőpartnerünk mond. Amazonról már tulajdonképpen mai is megrendelhetünk egy olyan eszközt, ami képes angol és néhány nagyobb nyelv között ezt megvalósítani, de attól valószínűleg még messze vagyunk, hogy mondjuk az Adrián magyar és horvát nyelven ezt használhassuk.
A nagy szállítók nyelvtechnológiai alkalmazásai persze sok nyelven elérhetők – magyarul és horvátul is –, azonban ezek általános megoldások, amelyek az üzleti felhasználásban nem érik el a kívánt pontosságot. Nagy szerepe lesz tehát a jövőben is a nyelvre és az iparágakra tanítható, akár egyedi megoldásoknak.

8/I. lapszámában jelent meg. A magazin ingyenesen megrendelhető a This email address is being protected from spambots. You need JavaScript enabled to view it. e-mail címen.