Data or it didn’t happen!

Vagyis ha nincs róla adatod, meg sem történt. A kifejezést nem olyan régen egy konferencián hallottam először, ahol az előadó arról a hatalmas adatmennyiségről beszélt, amit te vagy én naponta termelünk magunkról, magunktól.

A számunkra meghatározó élményeink nagy részéből ugyanis biztosan adat lesz valamilyen digitális szolgáltatás vagy applikáció használatán keresztül: muszáj megmutatnunk a világnak ha láttunk valami szépet, ettünk valami finomat, olvastunk valami érdekeset, vagy voltunk egy új helyen. Reggel az első dolgunk, hogy elolvassuk az emailjeinket, aztán lájkoljuk az alvás közben elmulasztott posztokat a Facebookon, majd a meleg paplan alól még gyorsan feltöltünk egy képet az Instagramra a hétvégi buliról indulás előtt (#instamood #latergram #TGIF #yoloka). Munkába menet meghallgatjuk a Spotify algoritmusa által összeállított személyre szabott lejátszási listát, napközben pedig a háttérben fut a Facebook és már anya is csak a Whatsappon érdeklődik, hogy ugye nem történt semmi baj, amiért nem válaszolunk az üzenetre, amit 10 perce küldött. Ebéd után már jön a gondolat, hogy a Tinderen találjunk rá az aznap esti hercegre fehér lovon. Munka után elmegyünk futni, ahol a múlt heti edzéshez képesti javulást a RunKeeper mutatja, majd a Yelpen kiválasztjuk hova menjünk vacsorázni. Még be sem ültünk a kiválasztott helyre, de már becsekkoltunk a Swarm-on. Ha elégedetlenek voltunk a kiszolgálással, biztos nem hagyjuk azt szó nélkül a Foursquare-en, miközben várjuk az Uber sofőrt, aki hazavisz minket. Aztán vannak, akik még ennél is tovább mennek. Igen, én is! A wifis mérlegem minden reggel küldi a telefonomra a legfrissebb adatokat a testsúlyomról, a testtömeg indexemről, a pulzusomról és a testzsírszázalékom változásáról. Külön applikáció jelzi előre egy svájci biológiai óra pontosságával, hogy mikor fogok legközelebb menstruálni, és a zsebemben lévő lépésszámláló azt is megmutatja, hogy megtettem-e már az aznapra előírt egészségesnek mondott 10000 lépést.

Hívhatjuk a jelenséget lifeloggingnak, quantified selfnek, Y generációnak, digitális forradalomnak vagy betegségnek is, de egy olyan lelkes adatkedvelő számára mint amilyen én is vagyok, mindenképpen izgalmas terep ez az (ön)elemzésre.

Többek között a fentiekben is említett alkalmazások használata révén több gigányi adat gyűlt össze rólam az online térben, amit privát data concierge híján magam kezdtem el elemezni. (Ha az okoskészülékek másik végén lévő szolgáltató marketing vagy egyéb célokra használja fel a rólam megszerzett információt és pénzt csinál belőle, méghozzá jó sokat, én miért ne tehetném ugyanezt?)

Legelőször arra voltam kíváncsi, hogy egy átlagos napon milyen gyakran használom a telefonom. Figyelem, a cikk továbbolvasását csak erős idegzetűeknek ajánlom! Az eredmény ugyanis még számomra is megdöbbentő. Körülbelül április közepe óta figyelem, hogy egy órában hányszor oldom fel a billentyűzárat az okosomon. A logokhoz az IBM SPSS Modeler R node-jai segítségével készítettem vizualizációt, ez látható a képen is. A nyári időszakot leszámítva, amikor óránként „csak” kétszer nyúltam a telefonomhoz, jellemzően 5-ször, 6-szor akár 7-szer is használom a készüléket óránként. Nincs ez másként hétvégén sem, a minimum 4 alkalom ilyenkor is megvan stabilan. A maximumok az óránkénti 12 alkalmat szerencsére nem haladták meg, eddig. 5 percenként akkor oldom fel a telefonomat, ha számomra fontos esemény közeledik (ezeket jelölik a markerek), illetve ebédszünetben is intenzívebben foglalkozom a készülékkel. Mentségemre legyen, hogy nyár óta csökkeni látszik a telefonhasználat, bár az augusztus óta eltelt időszakban is előfordult, hogy 7 és fél percenként feloldottam a billentyűzárat egy órában.

Data or it didn’t happen?! Bárcsak ne lenne, róla adatom, akkor talán meg sem történt volna...

Balogi Csilla
Data Scientist
Clementine Consulting

Megjelent az Adatelemzés IBM SPSS Statistics megoldások alkalmazásával című könyv

Megjelent a legfrissebb magyar nyelvű IBM SPSS Statistics tankönyv, melyet kollégánk, Könyves Tóth Előd lektorált. A könyvhöz az ajánlót a szerző, Jánosa András tollából olvashatják:

Körülöttünk egy informatikai forradalom zajlik. Kevés olyan folyamata, területe van életünknek, melynek eseményeit digitálisan ne rögzítenénk. De a globalizáció, a felgyorsult üzletmenet, a növekvő ügyféligények, egyes szektorok (például bank, távközlés) növekvő szabályozási-megfelelési kényszere, a társadalmi mozgások, de akárcsak a felismerés és adatgyűjtés módszereinek és eljárásainak fejlődése és számos más tényező is az adatmennyiség folyamatos növekedéséhez vezet, s ez a növekedés exponenciális.

Akár az adattömeg mérete, akár az adatokkal ábrázolt jelenségek bonyolultsága, összetettsége, áttekinthetetlensége okán nagyon sok érték marad rejtve. Ezekben az adatokban pedig ott vannak elrejtve a válaszok a gazdaság működésének kulcs kérdéseire. Olyanokra, mint: kik a vevőink, kik alkotják a vevőinknek azt a hányadát, akiktől a bevétel túlnyomó többsége származik, mi a vevőérték, stb. Ezeknek a kérdéseknek a megválaszolása nagyon értékes a gazdálkodó szervezetek számára. A kérdések megválaszolásának a forrása ott lapul a gyűjtött, tárolt adatokban. Először is azonban kell tudni feltenni azt a kérdést, ami fontos. Ahhoz viszont, hogy valóban válaszolni is tudjunk a feltett kérdésekre, az adatoktól el kell jutni a hasznosítható, a kérdést megfogalmazó területre (természet– és társadalom világa, gazdaság, üzleti élet) „visszaforgatható” tudásig. Ebben a feltáró folyamatban az üzleti intelligencia megragadható úgy, mint eszközök, módszerek, technikák összessége, melyek biztosítják, hogy a megkutatott, vagy a vállalati információs vagyonból az üzleti életben, vagy a társadalmi folyamatok alakításában közvetlenül hasznosítható tudásig eljussunk.

Az információ tudássá alakításának folyamatában az adatelemzésnek az egymással kapcsolatban álló információk összegyűjtésében, értelmes szerkezetbe rendezésében, szemléletes megmutatásában, elemzésében, következtetések levonásában, s bizonyos előre látások, kivetítések megfogalmazásában van szerepe.

Az a felismerés, amit az adatelemzés során szerzünk, kiinduló pont kell legyen olyan üzleti tervek készítéséhez, melyek üzleti probléma megoldására irányulnak, végülis hozzá tudnak járulni az üzleti kockázat csökkentéséhez, az értékesítés növeléséhez, a vevői kör jobb eléréséhez, a költségek csökkentéséhez.

Ezért e könyvben egyfelől megoldást kívánok adni bizonyos adott problémák megválaszolását segítő elemzési megoldásokra, de segíteni akarok a megoldások elemzésében, interpretálásában is. Remélem, hogy mindkét területen olyan hozzájárulást tudok adni, amit először ebben a műben találnak meg. Megtalálhatók olyan kérdések magyarázatai, melyekre korábban kevesen tértek ki, s megtalálhatók a mintául szolgáló, megoldás tekintetében útmutató, értelmező elemzések. A megoldások konkrét példákon keresztül kerülnek bemutatásra, s ábrákkal, magyarázatokkal lépésről-lépésre levezetésre, azzal a céllal hogy az olvasó számára követhetők, ellenőrizhetők legyenek.

A könyv megoldásai az IBM SPSS Statistics szoftverrel készültek, mely adatelemző eszközként egyfajta minőségi sztenderdet képez.

A könyv elsősorban tankönyvnek íródott. Remélhetőleg azonban haszonnal forgathatják a gazdálkodó szervezetek elemző munkatársai is, akik munkájukban az adatelemzés módszereinek gyakorlati alkalmazása során feladataik megoldásához módszertani és számítógépes támogatást keresnek.

Indulás előtt a NUN-expedíció

Július 29-én indul az izgalmas Magyar Nun 2015 Expedíció! A 7135 m magas, fenséges csúcs Indiában, Dzsammu és Kasmír területén fekszik, a Himalájához tartozik. Társával, a Kun-nal egy hegységet alkot, közöttük egy 4 km-es havas plató húzódik 5000 méteren. A hegymászók a Nun nyugati gerincén húzódó klasszikus utat teszik meg.

Az expedíció tagjai: Dr. Ágoston Viktor, Csíkos József, Dobó Barna, Gránicz János, Maku László, Markos Huba, Dr. Szász László és Vörös László.

Dr. Ágoston Viktor, aki egyébként is nyitott a technikai újdonságokra, vállalta, hogy az expedíció ideje alatt a Clementine Consulting és a FusionVital által kifejleszett ClemVital módszertan testszenzorát viselve rögzíti az élettani paramétereit. Az így nyert adatokból később modellezhetőek lesznek szervezetének azon sajátosságai, amelyek szoros összefüggést mutatnak a stressz reakciók, a pihenés-feltöltődés és a fizikai aktivitásoknak az általános egészségi állapotra való hatásaival. A 10 napos akklimatizációs periódus alatt, illetve az azt követő alaptáborba való megérkezés és a csúcstámadás alatt is végez majd méréseket a szenzor, és az így összegyűjtött biostatisztikai adatokat később az ELTE kutatóival együtt elemezik majd a Clementine Consulting és a FusionVital szakemberei.

A hegymászók a mi szenzorainkon kívül más eszközökkel is fognak adatokat rögzíteni, amelyek végső összehasonlítása számunkra is hasznos tapasztalattal fog szolgálni. Ezen kívül természetesen az extrém körülmények között rögzített értékek elemzése önmagában is egyedülálló lehetőség.

Izgatottan várjuk az eredményeket, az expedíció tagjainak pedig ezúton is sok sikert kívánunk!

Bővebben a ClemVital szolgáltatásról

Forrás: Fókablog

Közösségi vélemények az új Jurassic World-ről

A Jurassic World megjelenése előtt Suman Mukherjee (Watson Analytics) és Forsyth Alexander (IBM Business Analytics) górcső alá vették a közösségi médiában fellelhető véleménynyilvánításokat a több mint egy évtizede várt kalandfilm kapcsán.

Rajongókként olyasmire voltak kíváncsiak, hogy a világon hol „twittelnek” leggyakrabban, a bejegyzések hogyan oszlanak meg nemenként, milyen az általános vélekedés a moziról és mikor beszélnek róla a legtöbben. Ennek megállapításához a Watson Analytics-et használták, melybe Twitter adatokat feltöltve szinte azonnal kirajzolódtak az érdekes eredmények. Watson minden kérdésükre vizuálisan megjelenített összefoglaló információt adott, amely könnyen és gyorsan megfogalmazhatóvá tette a válaszokat.

Az eredmények eléréséhez csak be kellett jelentkezni a Watson felületre, majd a „Twitter Data Connector” segítségével a 2015. február 1. és május 29. között előforduló #jurassicworld keresőszó megadásával importálni a „becsipogott” adathalmazt. Ezután a könnyen kezelhető felületen haladva Watson felajánlotta a kutatás kiindulópontjait.

Lássuk, mit állapítottak meg a vizualizációt elemezve:
• Habár Chilében volt a legmagasabb a „twittelők” száma, Mongólia csak egy hajszálnyival maradt le mögöttük.
• Áprilisban a nők még pozitívabban nyilatkoztak a mozifilmről, mint májusban.
• Ahogyan az várható volt, leginkább pozitív hangvételű vélemények hangzottak el. Az idő előrehaladtával sem változott észrevehetően az állásfoglalások hangulata: legtöbben pozitívan nyilatkoztak, sorrendben következő volt a semlegesek száma, majd következtek a negatívak, és legkevesebben a vegyes érzelműek.
• Globálisan a „tweetek” száma május utolsó 5 napjában rohamosan nőtt, a pozitívaké és a negatívaké egyaránt.
A május végi „tweet-roham” a trailerek megnövekvő számának, a Jurassic World tumblr oldal létrejöttének és a megjelenés közeledtének is köszönhető.

A nyelv és a város hozzáadása az elemzéshez segítette az eredmények mélyebb megértését, így az alábbi megállapítások születtek:
• Arab és ukrán nyelven csak semleges hangvételű véleményeket írtak.
• Norvég nyelven a legnagyobb a pozitív és a semleges vélemények száma közötti különbség, és nagyon alacsony a negatívumokat megfogalmazó „tweetek” aránya.
• A pozitív vélemények kiugró száma jellemzi a New Orleans-i „twittelőket”.
• A negatív vélemények nagy része megosztásokból származott, és nem eredeti „tweetekből”.

A vizualizált eredmények megtekintéséért kattintson ide!

Annak, aki érdeklődik a magyar nyelvű szöveganalitika iránt és szívesen végezne hasonló kutatásokat, figyelmébe ajánljuk ingyenes bemutató szemináriumunkat: http://clementine.hu/oktatas-es-rendezvenyek/bemutato-szeminariumok/spss-text-analytics/14

Forrás: http://asmarterplanet.com/blog/2015/06/watson-analytics-jurassic-world.html

Útmutató a tavaszi sörfesztiválokhoz

A sörfesztiválok immár nem csak az októberi időszakra korlátozódnak, és szerencsére már Münchenen kívül is találunk igen színvonalas rendezvényeket a témában. A kora nyári meleg időjárás meghozza kedvünket a habzó ital fogyasztásához, és ehhez ideális helyszínt biztosít a számos sörfesztivál szerte az országban.

Ilyenkor aztán egy sereg sörfőzde felvonultatja bőséges kínálatát, és ember legyen a talpán, aki eligazodik a több száz féle frissítő között. Ennyi fajtát végigkóstolni még a leggyakorlottabbaknak is kihívás; adja tehát magát a kérdés: milyen sört válasszunk? Melyik passzol leginkább az ízlésvilágunkhoz?

A Clementine Consulting ezúttal is segít a kérdés megválaszolásában. A főbb sörtípusok jellemzőit elemeztük szöveganalitikai eszközökkel (IBM SPSS Modeler Premium Text Analytics modul), majd vizualizáltuk i2-ban, hogy segítsünk a választásban.

Ha kíváncsi az eredményre, kattintson ide!

Persze a márka szerinti kedvenc megtaláláshoz mindenki kóstolgasson kedvére!

 

Első világháború hadüzenetei i2-ben

100 éve tört ki az első világháború.

1914. júniusában Szarajevóban meggyilkolták Ferenc Ferdinánd főherceget, az osztrák trónörököst, mire válaszként az Osztrák-Magyar Monarchia először ultimátumot intézett, majd július 28-án hadat üzent Szerbiának. A következő napokban az összes európai nagyhatalom kinyilvánította részvételét: Németország hadatüzent először az oroszoknak, majd Franciaországnak, még augusztusban bekapcsolódott Anglia és Belgium, majd Japán is hadüzenetet küldött a németeknek.

Egymást követték az ultimátumok és hadüzenetek, melyeket mi i2-ben meg is jelenítettünk.

Az első ábra az úgynevezett "timeline", mely egy idővonalon ábrázolja az eseményeket: melyik ország kinek és mikor küldött hadüzenetet.

A második ábra az "assosication chart". Az i2 Social Network Analysis modulja segítségével meghatározuk a központi szerepet játszó országokat, ezeket az ábrán a program nagyobb ikonnal, zászlóval jelöl.  Az országok közötti linkek iránya megmutatja a hadüzenet irányát, színe pedig a küldés évét (sötétebb kék: 1914, világos kék: 1915, sötétebb zöld: 1916, világosabb zöld: 1917, lila: 1918).

Ha szeretne megismerkedni az IBM i2 hálózatvizualizációs szoftvert olvassa el tájékoztatónkat vagy jöjjön el szeptemberi ingyenes bemutató szemináriumunkra!

Az adatok forrása: http://hu.wikipedia.org/wiki/Els%C5%91_vil%C3%A1gh%C3%A1bor%C3%BA