Szöveganalitikával slágert? Lehetséges!

Vajon mitől függ, hogy egy zeneszám a slágerlisták élére kerül, vagy sem? Van élet a Despacito-n túl? Milyen szavakat, kifejezéseket használnak a magyar könnyűzenei élet szereplői a legmenőbb nyári slágerek megalkotásához? A Clementine szöveganalitikai elemzésen alapuló kutatásából többek között kiderül, hogy ’mire várunk?’ vagy hogy ’melyik a legtöbbet megénekelt testrészünk?’.

Az Axis of Awesome – ’Four Chord Song’ című produkciója óta köztudott, hogy nem feltétlen az egyedi, fülbemászó dallamok jelentik egy-egy zenei alkotás számára a siker kulcsát. A jól megválasztott szavak, kifejezések ugyanolyan fontosak a csúcsra jutáshoz. Ezt bizonyítandó, a szöveganalitikai megoldásokkal és adatbányászattal foglalkozó Clementine feldolgozta a 30. hét rádiós játszási listáinak Top 40 magyar nyelvű dalát, és a szövegek elemzésével vizsgálta a leginkább használt népszerű szavak, kifejezések előfordulását, rendszerességét. (Az elemzés alapjául szolgáló rádiós lista itt érhető el: http://zene.slagerlistak.hu/magyar-radios-top-40-slagerlista/2017/30.)

A módszertani szempontból első ránézésre sem egyszerű feladat (a dalszövegekből létrehozott adatbázis az SPSS Modeler szoftverben került tisztításra, -rendszerezésre, majd a Text Mining megoldás segítségével egy területspecifikus szótár kapcsolódott az adatokhoz) során kiderült, hogy a helyzet még bonyolultabb. A magyar nyelvű dalszövegek izgalmas részét képezik ugyanis azon kifejezések, melyek egy-egy kontextusban eltérő jelentéssel bírnak: mindenki ég a vágytól és sokan ezt éppen a kék ég alatt teszik; gyakran fúj a szél, miközben a szakadék szélén ácsorognak; de nyáron a hajunkat is feltűzzük, ha a lobog a tábortűz, meg ne égjen. Ezért olyan szótárt kellett létrehozni, amely tartalmaz a dalszövegekre jellemző szókészletet mellett olyan szabályokat is, amelyek kiküszöbölhetővé teszik a sok azonos alakú kifejezést, illetve felismerik a legjellemzőbb szószerkezeteket is.


Az elemzés végeredményeként készült ábráról kiderül, mit hallgatunk szívesen a nyáron, mik azok a kifejezések és trópusok, amelyek vissza-visszatérnek. Így már gyerekjáték lesz megírni a jövő nyár legnagyobb slágerét ;)

Így szurkoltunk a vizes vb alatt

Nemcsak élőben, a helyszínen vagy a TV képernyője előtt ülve szurkoltuk végig a 2017-es vizes vb-t. Aktívak voltunk a közösségi médiában is, szinte minden részeredményt és eredményt azonnal kommentált a magyarok jó része. A vb alatt leggyakrabban a #hajrá magyarok, a #vizilabda és a #duna aréna hashtag-eket írtuk le.

A közösségi oldalak közül a magyarok leggyakrabban a Facebook-ot használják, így a vizes vb alatt is itt született a legtöbb bejegyzés. A szurkolók több, mint háromezer nyilvános bejegyzésben osztották meg, hol és hogyan szurkolnak a magyar sportolóknak, milyen eseményeken vettek részt vagy melyik sportág a kedvencük. Kommentálták természetesen az eredményeket is. 

Elemzésünkben azt vizsgáltuk, milyen hashtag-eket és szavakat, kifejezéseket használtunk a leggyakrabban az elmúlt napokban, a vb-vel kapcsolatban. Letöltöttük a #finabudapest2017 és #avizösszeköt hashtaggel ellátott nyilvános bejegyzéseket. Az adatokat rendszereztük és elemezhető formába hoztuk, különválasztottuk a hashtageket, a bejegyzés szövegét, valamint időpontját. Ezeket nem manuálisan, hanem szövegbányászati eszközökkel dolgoztuk fel, az IBM SPSS platformba integrált magyar nyelvi elemzésre képes Clemtext megoldásunk segítségével. Az eredményt videóban foglaltuk össze napi bontásban. 

A #hashtag-ekből, szógyakoriságokból gyakorlatilag kirajzolódik a teljes program. Így például a nyitónapon még a #megnyitó vezetett, majd később az egyes sportágak, sportolók nevei, valamint a #döntö kifejezések is beléptek. A teljes vb ideje alatt leggyakrabban a #hajrá magyarok, a #vizilabda és a #duna aréna hashtag-eket írtuk le.
A sportágak közül a #szinkronuszas, a #toronyugras, az #úszás és kapcsolódó szavak, mint a távokra utaló 200, 400 vagy az versenyszámokra utaló vegyes, váltó, valamint a #vizilabda kifejezések szerepeltek leginkább, ezek közül is kiemelkedett a #vizilabda. A sportolók közül pedig a legtöbbször Cseh László, Hosszú Katinka, Kenderesi Tamás neve szerepelt hashtag-ként.

 

dataSTREAM meetup - összefoglaló

Milyen egy data scientist munkája a pénzügyi szektorban?

Június 20-án, kedden délután 16 órakor tartottunk meetup sorozatunk következő rendezvényét, mely most is a „Ha nagy leszek data scientist leszek! De hol?!” témakörét járta körül, ezúttal kifejezetten a pénzügyi szektor lehetőségeit vizsgálva. Ezen iparágban ugyanis nap mint nap hatalmas mennyiségű adat keletkezik, gondoljuk csak a banki ügyletekre vagy éppen a biztosítási esetekre. A csalás felderítés, az ügyfél ajánlatok összeállítása vagy például a churn-menedzsment szempontjából is hasznos megoldások, előrejelzések ma már mindennaposak, fontos szerepük van a szolgáltatások fejlesztésében.

Rekordszámú jelentkező és négy érdekes és hasznos előadás – ez a meetup mérlege, melyen a következő témákat hallhatták a résztvevők:

  • Máté Anna, a Clementine elemzője a biztosítási csalások hatásaira hívta fel a hallgatóság figyelmét. Az elemző a gépjármű-biztosítási csalásokkal foglalkozott részletesebben: ezeknek egy részét egyedül követik el, azonban a nagy horderejű csalás-sorozatokat csoportosan hajtják végre. Ezen csoportok jó eséllyel felderíthetők kapcsolatiháló-elemzéssel, melynek felderítésére konkrét példát láthattunk az előadásban.
  • György Ádám, az OTP Bank elemzési szakértője előadásban ismertetett egy rövid és tanulságos üzleti esetet, amely többek között arról szól, hogy milyen adatelemzési és feldolgozási szolgáltatók vannak jelen a globális piacon; mit kezdhetünk az ilyen szolgáltatásokkal; milyen típusú adatelemzési projekteknél érdemes külső partnert bevonni, valamint, hogy hol tart most az OTP Bank a nemzetközi benchmarkhoz képest elemzői kompetenciában és kapacitásban.
  • Farkas Bálint, a Microsoft képviseletében az AI, vagyis a mesterséges intelligencia felhasználását mutatta be a bankszektorban: kifejezetten az automatizált ügyintézés, valamint a személyre szabott felhasználói élmény területein. Kitért a hitelesítetten biztonságos felhő alapú megoldásokra, azok előnyeire, lehetőségeire. Bemutatójában prezentálta a cég Azure platformján futó adatbányász alkalmazásait.
  • Az IBM adatbányász, üzleti elemző és alkalmazás fejlesztésért felelős szakemberek véleményei alapján készítette legújabb platformját, mely a valós életbeli munkafolyamatok jelentős felgyorsítását célozza meg – ezt mutatta be a cég képviseletében Huszti Dániel. A felület legfőbb ereje a kollaboratív tevékenységben és a fejlett analitikai eszközök egyetlen platformba történő integrálásában rejlik. Az előadás során a résztvevők megismerkedhettek az IBM Watson Data Platform ökoszisztémájával és a pénzügyi szektor számára releváns megoldásaival.


Az eőadások különlegességét az is biztosította, hogy merőben eltérő megoldásokat láthattunk a data science területén, akár konkurens cégektől is. Mindegyik előadás további beszélgetéseket generált, melyekre a hivatalos program végeztével került sor.


A meetup sorozatunk hamarosan folytatódik, a következő dátumért és további információért érdemes honlapunkat böngészni: clementine.hu/datastream

 

dataSTREAM meetup - Data science a pénzügyi szektorban

Június 20-án, kedden délután 16 órakor folytatódik meetup sorozatunk, melyben ezúttal a pénzügyi szektorban rejlő adatelemzési megoldásokat, lehetőségeket szeretnénk bemutatni az érdeklődőknek.

A korábbi alkalmakon beszéltünk arról, hogy merre tart a data science jövője, mik a legújabb trendek, lehetőségek. Ezúttal kifejezetten a pénzügyi szektorban alkalmazott adatelemzési módszereket, best practice megoldásokat vizsgáljuk. Ezen iparágban ugyanis nap mint nap hatalmas mennyiségű adat keletkezik, gondoljuk csak a banki ügyletekre vagy éppen a biztosítási esetekre. A csalás felderítés, az ügyfél ajánlatok összeállítása vagy például a churn-menedzsment szempontjából is hasznos megoldások, előrejelzések ma már mindennaposak, fontos szerepük van a szolgáltatások fejlesztésében.

Ezúttal három előadás során ismerhetjük meg a cégeknél zajló konkrét adatelemzői folyamatokat:

1. Farkas Bálint, Microsoft - Cloudization and AI in banking

Farkas Bálint előadásában az AI, vagyis a mesterséges intelligencia felhasználását mutatja be a bankszektorban: az automatizált ügyintézés, valamint a személyre szabott felhasználói élmény területein. Kitér a hitelesítetten biztonságos felhő alapú megoldásokra, azok előnyeire, lehetőségeire.

2. György Ádám, OTP Bank Nyrt. - Elemzési gyakorlatok a piacon – tanulságok a Bankban

György Ádám, az OTP Bank elemzési szakértője előadásban ismertet egy rövid és tanulságos üzleti esetet, amely többek között arról szól, hogy milyen adatelemzési és feldolgozási szolgáltatók vannak jelen a globális piacon; mit kezdhetünk az ilyen szolgáltatásokkal, valamint, hogy hol tart most az OTP Bank a nemzetközi benchmarkhoz képest elemzői kompetenciában és kapacitásban.

3. Máté Anna, Clementine

Máté Anna, a Clementine elemzője a biztosítási csalások hatásat vizsgálja előadásában. Szakértők becslése szerint az összes bejelentés 5-10%-a lehet csalás, pedig a csalások felderítésével a biztosítócégek elkerülhetnék a jogosulatlan kifizetéseket, amelyek több milliárd forint kifizetést is jelenthetnek évente.

Az előadások után lehetőség nyílik informális kapcsolatteremtésre az érdeklődők számára.

A rendezvény ingyenes.
Jelentkezni lehet e-mail-ben a meetup@clementine.hu e-mail címen vagy a https://www.meetup.com/Budapest-dataSTREAM-Meetup-Series/events/240602591/ oldalon.

dataSTREAM 2017

A 2017-es dataSTREAM konferencia a kritikus gondolkodás és az emberi döntések szerepéről szólt egy olyan korszakban, amelyben úgy érezhetjük, a gépek helyettünk tanulnak.

Körmendi György, a Clementine ügyvezetője nyitóelőadásában az adattudomány előtt álló döntéseket hangsúlyozta – a kognitív éra küszöbén fókuszba kerül a szakma, ezzel párhuzamosan pedig a szakmai identitás átkeretezésére is sor kerül. A szakemberek választhatnak az on-premise platformok és a felső alapú megoldások közül (a hibrid ajánlatok középtávon jó alternatívát jelenthetnek), illetve vannak, akik magas szintű eszközöket alkalmaznak az adatokban rejlő mintázatok feltárásához, míg mások a kódoláshoz ragaszkodnak. Az IBM Data Science Experience platformja új mérföldkövet jelenthet az elemzésben – felhő alapú és open-source megoldások, együttműködést támogató funkciók, szakmai tudásáramlás, és hamarosan az SPSS Canvas is beépül a rendszerbe – így hatékony, egységes munkafelületet biztosít az adatelemző munkatársaknak.

Kókai Dávid, a We Love What You Build alapítója a Lego alkatrészek másodlagos piacának vadnyugati hangulatáról mesélt. Tudtátok, hogy a Lego 11 szürke árnyalatot gyárt? Ráadásul egy 1x2-es (kékes)szürke elem 9-szer annyit ér, mint egy 1x2-es kommersz sárga elem? Míg a Lego kizárólag készleteket árul, addig a fregmentált másodlagos piacon akár évekkel ezelőtt kiadott készletekből is lehet alkatrészt vásárolni. A másodlagos piacterek transzparensek, ebben hasonlítanak a pénzpiachoz – Kókai Dávid a cikkelemekből adatbázist épített, és az adattudomány segítségével igazgatja vállalkozását: data támogatja az optimális készletgazdálkodást, az árazást, a vevőprofilozást, a direkt marketinget, a beszerzést, a minőségbiztosítást és a logisztikát. Azonban a szabályozott pénzpiacokkal ellentétben a Lego alkatrészek piacán vadnyugati szabályok érvényesülnek: megengedett a versenytársak kulcstermékeinek felvásárlása, a saját forgási sebesség növelése.

Lányi Dávid, az IBM Research zürichi laboratóriumának mérnöke úgy gondolja, a digitalizált vállalatok között a kognitív üzletág tesz majd valódi különbséget. Azoknak, akik előre rettegnek az automatizálástól, és attól, hogy a gépek miatt elvesztik állásukat, az IBM bíztató víziót sugároz: az előadáson az augmented intelligence (kiterjesztett intelligencia) képét vázolta fel a szakember, melynek segítségével az átlagos munkavállalót a technológia segítségével felvértezik, hogy a legjobbak hatékonyságával bírhasson. Erre példa egyik projektjük, melyben mellrákos szövetmintákat elemeztek deep learning módszerrel – a programot egy nyár alatt fejlesztették, és közel olyan pontossággal azonosította a mitózisokat, mint egy olyan szakorvos, aki 8-10 évet töltött ezeknek tanulmányozásával. Emiatt az orvosoknak nem szükséges karrierváltáson gondolkozniuk; a módszer mindössze egy objektív másodvéleményt ad, támogatja a szakemberek munkáját.

Kovács-Ördög Zita és Pancza Judit bemutatták a Clementine új munkatársát, BOTondot. BOTond egyelőre próbaidőn van a cégnél, és szorgalmasan tanítják neki a szervezeti információkat, hogy minél gördülékenyebben válaszolhasson az érdeklődők kérdéseire. BOTond előnye, hogy szabálykövető kolléga, ellenben demotivált – tudását magától nem bővíti, ráadásul feledékeny. Az új munkatárs cégünk profiljához illeszkedik: szabályalapú chatrobot, Emíliához (virtuális banki asszisztens) hasonlóan, akit 2016-ban mutattak be, és egyszerű banki kérdésekre válaszol szóban. 2020-tól várhatóak az „intelligens” robotok, akik prediktív modellel válaszolnak, maguktól is tanulnak – kérdésekből és válaszokból egyaránt -, NLP-t használnak, és emlékeznek a korábbi beszélgetésekre.

Mit értünk adatvezérelt szervezet alatt? Tompa Miklós, a Clementine üzletfejlesztési igazgatója a vállalat felmérésének eredményeiről beszélt, amelyben azt vizsgálták, hol helyezkednek el az adatelemző csapatok a szervezetekben, hogyan és milyen módszerekkel dolgoznak. Problémát jelenthet, hogy az adatelemző csapatok nincsenek megfelelően integrálva a szervezeti felépítésbe, az adatrészlegeknek nincsenek mérhető teljesítménymutatóik, mindösszesen a határidők tartása. Gondot okozhat az is, hogy a vevők nem elemzési szakemberek, az elemzők kevéssé érzékenyek az üzleti igényekre, ezért nem képesek releváns kérdéseket megfogalmazni. Érdekes eredmény, hogy mindösszesen egy megkérdezett cégnél volt valódi Big Data megoldás nemzetközi csapat szinten. A szakember tanácsa, hogy minden folyamatban legyen jelen az adat, és generáljon üzleti hasznot; az eredményességhez az elemző csapatnak mérőszámokra, integrált analitikai eszközökre van szüksége és a speciális feladatokhoz open-source megoldásokra. Erre később hasznos felület lehet az IBM Data Science Experience, amelyről Körmendi György előadásában hallhattunk korábban.

Kovács Gyula, a Fókusz takarékszövetkezet projektigazgatója az adattudósokat a görög tudósokhoz hasonlította: Eratoszthenész kevés információból közel teljes pontossággal becsülte meg a Föld kerületét. Az elemzők feladata is hasonló: viszonylag kevés adatból próbálnak pontos előrejelzéseket adni. A szakma egyik kihívását az ügyfelek elvárásmenedzsmentjében látja, nem érdemes illúziókba kergetni a vevőket, ne várjanak csodát. Véleménye szerint Magyarországon adatéhség uralkodik, és rettenetes éhség esetén a vajas kenyér is megfelel, tehát a gyorsan elkészíthető, egyszerű eredmények; a szakember azt javasolja, feleslegesen ne bonyolítsuk az elemzéseket. Jó tanács azonban, hogy olyan elemzéseket is végezzünk el, amelyekre az ügyfél esetleg nem gondolt, így nem csak az ő megérzéseit támasztjuk alá, hanem új információt is nyújthatunk, ez pedig hozzáadott értéket jelent.

Ádám Gábor, az IFUA Horváth & Partners Advanced Analytics vezetője – ez a terület a menedzsment tanácsadás és az adatbányászat találkozása. A felsővezetők gyakran nem értik a riportokat, ezért nem integrálják a feltárt információkat a folyamatokba, ezért Ádám Gáborék könnyen érthető, dashboard alapú kimutatásokat nyújtanak az ügyfeleknek, ami hasznosítható tudássá alakul. A prediktív előrejelzési megoldásokon – amelyek alapját idősoros elemzések adják - a Clementine munkatársaival dolgoznak együtt. Az egyik vezető gyógyszergyártó cégnek 24 hónapra készítettek kereskedelemi előrejelzéseket (ehhez szükségük volt minimum 24 hónap tanulási adatra). A szakember felhívta a figyelmet arra, hogy a prediktív elemzéseket érdemes havonta pontosítani új adatok bevitelével, továbbá az emberi előrejelzések gyengeségeire is rávilágított, hangsúlyozta a kognitív torzítások hatását a predikciók pontosságára (múltbéli események, horgonypontok, például a válságnak sokkal nagyobb jelentőséget tulajdonítanak, mint a gépi elemzések).

Máté Anna, a Clementine elemzője a biztosítási csalások hatásaira hívta fel a hallgatóság figyelmét. Szakértők becslése szerint az összes bejelentés 5-10%-a lehet csalás, pedig a csalások felderítésével a biztosítócégek elkerülhetnék a jogosulatlan kifizetéseket, amelyek több milliárd forint kifizetést is jelenthetnek évente. Az elemző a gépjármű-biztosítási csalásokkal foglalkozott részletesebben: ezeknek egy részét egyedül követik el (például utólag köt biztosítást a káresetre, vagy nagyobb összegű káresetet jelent be, mint amire valójában jogosult), azonban a nagy horderejű csalás-sorozatokat csoportosan hajtják végre (megrendezett balesetek és lopások, öltöztetések). A csoportok jó eséllyel felderíthetők kapcsolatiháló-elemzéssel. A Clementine szakembere az előre meghatározott elemzési módszerrel, IBM i2 Analysts’ Notebookkal dolgozott, így feltárhatóvá váltak a kulcsszereplők és az összeköttetések. A biztosítási csalások hatékony feltérképezéséhez sokban hozzájárulna egy összevont biztosítási adatbázis, hiszen az érdekeltek általában nem ugyanannál a cégnél követik el az ismételt csalásokat.

Mándli Anna, a Robert Bosch Kft. autóelektronikai technológiákat fejlesztő csapat tagja a gyártási folyamatokat adatbányászati módszerek segítségével optimalizálja. Egy-egy alkatrész, termék gyártásában több gyártósori gép működik közre, az adatok segítségével azonosították a hiba forrását, majd vizualizálták a legfontosabb tényezőket, hogy később is könnyen ellenőrizhetővé váljanak. Eredményeiket a fejlesztő csapattal és a mérnökökkel egyeztették. A gyártás során keletkezett adatok forrása azonban nem stabil – a mérések gyakorisága ingadozó, a különböző időintervallumokban keletkezett adatok nem összehasonlíthatóak, ráadásul a gépek kalibrálása, a gépek közötti különbségek is kihívásokat állítanak a szakemberek elé.

A konferenciát Könyves Tóth Előd előadása zárta, aki rengeteg érdekességet és különböző jövőképeket vetített a vászonra. Szembe állította az AI effect jelenséget az általa megfogalmazott AI komplexussal. Az AI effect a mesterséges intelligencia tagadása, melynek során bármilyen áttörést ér el a terület, a kritikusok azt mondják, ez nem valódi mesterséges intelligencia; így a mesterséges intelligencia mindig az marad, amit még nem értünk el. A szakember által megfogalmazott AI komplexus a mágikus gondolkodással analóg: az ilyen típusú ember minden tárgynak különleges hatalmat, lelket tulajdonít, mindenben az AI-t látja. Könyves Tóth Előd felhívta a figyelmet arra, amit sokan tudnak, de rendre elfelejtenek: az eszköz csak akkor intelligens, ha intelligensen használják. Ne essünk abba a csapdába, hogy kizárólag a gépektől várjuk a tudást.

Gartner 2017: Magic Quadrant for Data Science Platforms

A data science platformok gépi tanuláson alapuló megoldások létrehozására szolgálnak. Ezen a piacon az innovációk fókusza főleg a felhőmegoldásokra, Apach Spark-ra, automatizálásra, kollaborációra és a mesterséges intelligenciára helyeződik. A Gartner idén is 16 vendort értékelt azért, hogy bemutassa a legjobb elérhető platformokat. Ezek a termékek hozzásegítik a vállalatokat, hogy saját maguk építsenek gépi tanulásos megoldásokat ahelyett, hogy kiszerveznék azok létrehozását vagy éppen készen kapható formában vásárolnák meg őket.

A vállalatok életében felmerülő számtalan feladat elvégzésére alkalmasak ezek a megoldások, különösen olyan esetekben, amikor nem érhetők el megfelelő minőségű készen kapható, csomagolt applikációk. Ilyen feladatok például az ügyfelek igényének, a vásárlási szándékának vagy épp a lemorzsolódásának előrejelzése, illetve a csalásfelderítés.

A Gartner korábban Advanced Analytics Platform kategóriában értékelte a fenti megoldásokat, azonban a fejlett analitika kifejezés egyre inkább kikopott mióta a vendorok szívesebben használják a data science-t a marketing narratívájukban. Emellett a Gartner azzal is érvel az új elnevezés mellett, hogy az értékelt platformokat data scientist-ek használják, így kézenfekvő a szóhasználat. A definíciójuk szerint a data science platformok olyan összetett szoftveres applikációk, amik számtalan adatelemzési megoldás létrehozására alkalmas alapvető építőköveket tartalmaznak, és képesek ezen megoldások üzleti folyamatokba, infrastruktúrába és termékekbe történő beépítésére.

15 kritérium mentén értékelték a platformokat, úgy mint adat-hozzáférés, -előkészítés, vizualizáció, automatizálás, user interface, gépi tanulás, stb. A korábbi évekhez hasonlóan a megjelenítés komplexitása és a végrehajtás képessége mentén helyezték 4 kvadránsba az eredményeket, és az IBM ismét kiemelkedő helyet foglal el a Leader-ek között. A cég két termékét, az SPSS Modelert és az SPSS Statistics-et vették számításba az értékelésnél.

gartner 2017

A jelentésben az IBM alábbi erősségeit emelték ki:

  • Az IBM elkötelezett a folyamatos fejlesztés, illetve a data science és gépi tanulásos módszerek kiterjesztése iránt. A legújabb data science platform, a Data Science Experience (DSx) a jövőben minden bizonnyal a legkedveltebb eszközzé válhat a modern, nyitott, rugalmas használhatóságának köszönhetően, illetve azért is, mert az adatelemző szakértőktől az üzleti felhasználókig mindenki számára könnyen használható megoldásokat kínál.
  • Az IBM nagy hangsúlyt fektet az open source megoldások integrálására, hiszen ez napjainkban alapvető elvárás az adatelemzésben. Támogatja többek között a Spark és más nyílt forrású technológiák szoftveren belüli elérését, valamint az SPSS felhasználóknak több mint 170 bővítményhez is hozzáférést enged, hogy ők külső (akár más programnyelven írt) applikációkat és algoritmusokat használva tegyék még hatékonyabbá elemzéseiket. Az IBM számos open source társulásnak is a tagja, ilyenek például a Databricks, H2O.ai és a Continuum Analytics.
  • Az IBM a forrásadatok széles skáláját támogatja, köztük például a strukturálatlan adatok feldolgozását is, emiatt kedvelt eszköz a data scientistek körében. Az SPSS támogatja az összes vezető Hadoop, NoSQL és más relációs adatbázishoz való kapcsolódást. Gond nélkül kezel sok adatot, és párhuzamosan futó elemzéseket is.
  • A megkérdezett IBM felhasználók kitűnőnek értékelték az SPSS modellezési képességeit, kiemelve az elemzéseknél elérhető modellek széles skáláját, azok pontosságát, a modellek alkalmazhatóságát, a megbízhatóság romlásának nyomon követhetőségét és a javítási lehetőségeket. Továbbá az SPSS jól szabályozott, konzisztens analitikai környezetet biztosít, amelyben könnyen nyomon követhetők a verzióváltások, a metaadatok és az ellenőrzési lehetőségek.

Forrás: Gartner