1936-ban az USA-ban a The Literary Digest magazin csinált egy közvélemény-kutatást klasszikus kérdőíves módszerrel. Tízmillió levelet küldtek szét potenciális szavazóknak a kérdéssel: Landont vagy F. D. Rooseveltet támogatják-e majd az elnöki választásokon. Komoly mintavétellel és ehhez mérten óriási költségvetéssel dolgoztak, úgyhogy a világ egyik legprecízebb szavazási előrejelzését várta tőlük mindenki. A felmérés szerint végül Landon jött ki az esélyesebb jelöltnek fölényes 60 százalékkal. Az előrejelzés viszont hibásnak bizonyult! A valóságban F. D. Roosevelt nyert 62,5 százalékkal. Ha jelentéktelennek tűnik ez a kis fiaskó, akkor érdemes megjegyezni, hogy ez a presztízsveszteség vezetett oda, hogy pár éven belül a The Literary Digest csődbe ment, hiszen a tévedésük után már senki sem volt kíváncsi az előrejelzéseikre.
Ez az eset jól rámutat a kérdőívezés két gyenge pontjára: 1. Hibázni lehet a mintavétellel. Ebben az esetben az újság elsősorban az autó- és telefontulajdonosokat érte el, így a megkérdezettek válaszai – hiába voltak sokan – nem reprezentálták hűen az amerikai választópolgárok véleményét. Akármennyire triviális, erre az újság kutatói nem gondoltak. 2. A kérdőíves kutatásokban az emberek hazudnak. Vagy szándékosan, vagy öntudatlanul, mert például meg akarnak felelni a kérdezőnek.
A Big Data elemzőrendszerrel ezek a mellékhatások mind kiszűrhetők.
Egyébként az adatgyűjtés és az adatelemzés önmagában nem új dolog. Már kétszáz éve is létezett, és ugyanaz volt a célja, mint most: megérteni az emberi viselkedést.
Ami új, az az a léptékváltás, amit az internet hozott. Például régen honnan tudtuk, hogy mi a leghallgatottabb sláger? Onnan, hogy mindenki arról beszélt. Akárhogy is nézzük, ez nem a legpontosabb becslés. Ma honnan tudjuk? Onnan, hogy megnézzük a Youtube-on a videó alatti megtekintésszámot. Na, ezzel már nem lehet vitatkozni. Ennél mélyebbre is mehetünk. Melyik volt a legérdekesebb pillanata egy adott videónak? Az, ahova a legtöbbször visszatekertek. A Youtube ezt is méri. Melyik volt az, ahol az emberek úgy döntöttek, hogy nem nézik tovább a videót? A Youtube másodpercre pontosan meg tudja mondani ezt is. Férfiak vagy nők nézték többen? Gyerekek vagy felnőttek? Melyik országból? Melyik napszakban? Minden adat megvan… és ez nem csak a Youtube-ra igaz, hanem szinte minden fontosabb online szolgáltatóra.
Beszélgetések helyett Big Data
Az internetes világban általános trenddé vált, hogy az egyes weboldalak minden viselkedési adatot begyűjtenek a felhasználóikról. Ez elég Nagy Testvéresen hangzik, de nem kell megijedni… Előbb értsük meg, hogy mire használják ezt az egészet!
Régen egy könyvesboltban az eladónak volt lehetősége beszélgetni a látogatóival. Megértette a problémáikat. Tudta, hogy mit szeretnének. Tudott nekik új könyveket ajánlani. Látta, ha egy kötetet hónapokig csak kerülgetett a vásárló, és meg tudta kérdezni, mi tartja vissza attól, hogy megvegye és elolvassa. Manapság egy könyveket árusító webáruházban erre a személyes kapcsolatra nincs lehetőség. Viszont a webáruház számára most is elengedhetetlen, hogy értse, a vásárlói mit miért és hogyan csinálnak. Az adatelemzés tehát azt a célt szolgálja, hogy az online szolgáltató megértse az online látogatóit és azok viselkedését.
Vegyünk egy konkrét példát. Tegyük fel, hogy van egy tányérokat áruló webshopunk. Árulunk tíz fajta tányért, amiből kettő nagyon sikeres, hiszen sokat vásárolnak belőle. Egyszer csak belenézünk az adatokba, és látjuk, hogy van egy harmadik tányértípus, amiből ugyan keveset vásárolnak, de magát a termékoldalt nagyon sokan nézik. Ha olyan sokan nézik, akkor miért nem akarják megvenni? A választ egy hőtérképes elemzés adhatja meg, ami megmutatja, hol mozgatják a legtöbbet egerüket a felhasználók. Meg is van! Nagy aktivitást látunk a képek felett – tehát tudjuk, hogy az embereknek fontos a döntési folyamatukban a képek megtekintése –, továbbá azt is látjuk, hogy a leírásban az anyagminőség fülre kattintanak a legtöbben. Kezd összeállni a kép. A „beragadt” termékünkről nincs elég kép, és nem elég precíz a leírás, így a vásárlók kétségek között maradnak azzal kapcsolatban, hogy ez tényleg az a minőség-e, amiért fizetnének is. Gyors kör a fotóstúdióban, illetve a leírások felülvizsgálása, és már meg is vagyunk! A frissített termékoldal végre választ ad a vásárlók belső vívódásaira – így a látogatóink is boldogabbak, és a tányéreladás is beindul. Mindenki jól jár. Ez banális példának tűnhet, de az egész adatvezérelt gondolkodás ilyen egyszerű dolgok kombinálásából áll.
Mit csinálnak a nagyok?
A LinkedIn (amit sokan csak „szakmai Facebooknak” neveznek) a Big Data világának az egyik úttörője. Elsők között optimalizálták pusztán a viselkedési adatok alapján azt, hogy milyen állásajánlatokat kapjon az ember. Nem csak azt figyelik, hogy miben van tapasztalata, de azt is, hogy milyen cikkeket olvas, mi az, ami érdekli, mi az, ami iránt elkötelezett lehet. Vajon hova költözne szívesen? Hol lakik sok ismerőse? Még azt is képes azonosítani, hogy a múltbeli adatok alapján vajon mennyire esélyes egy előléptetés az adott felhasználónak a közeljövőben, és onnantól már az egy szinttel magasabb munkákat kínálja neki.
A Spotify zeneközvetítő alkalmazás is híres adatvezéreltségéről. Automatikus lejátszási listája több száz szempontot figyelembe vesz ahhoz, hogy az ízlésünkhöz tökéletesen passzoló zenét kínálja fel nekünk. Milyen számokat hallgattunk eddig? Azok, akik ugyanezeket a számokat hallgatták, milyen számokat hallgattak még? Az általunk hallgatott előadóknak milyen előadókkal vannak közös számai?
A példákat a végtelenségig lehetne sorolni… De hova vezet mindez?
A Big Data fogalmát az online világ szülte, de kezd átgyűrűzni az offline életbe is.
Egyre több az okoseszköz, ami folyamatosan méri a pulzusunkat és a vérnyomásunkat, rögzíti az alvásfázisainkat, vagy éppen azt, hogy mit ettünk ebédre. Tudjuk gyűjteni a kiadásainkat, és pontosan mérhetjük, hogy melyik nap mennyit futottunk. Vannak okosórák, okosautók, sőt okosmérlegek is. Nagyon jól látszanak a trendek: előbb-utóbb minden egyes mozzanatunk és élettani tünetünk mérhetővé válik. A kérdés csak az, hogy az így megszerzett tudást mire használjuk… Megelőzünk vele szívrohamokat, kezdeti fázisban lévő depressziót? Esetleg korai szakaszban tudjuk majd diagnosztizálni a rákos megbetegedést? Ez még mind a nem túl távoli jövő zenéje...
Big Data
A Big Datát alapul vevő, adatvezérelt gondolkodásmód két dologra épít, ahogy az a nevében is benne van:
1. Big: a Big Data-kutatásokban nincs mintavétel. Egyszerűen minden adatot begyűjtenek. Mi az a minden? Minden, ami csak technológiai szinten lehetséges. A Big Data emiatt nagy számítástechnikai kihívás is. Nem ritkán napi szinten több milliárd soros adathalmazokról beszélünk. Ezt a klasszikus adatfeldolgozó módszerek nem tudják kezelni, ezért új technológiákat kellett és kell folyamatosan kikísérletezni.
2. Data: Nem kellenek kérdőívek. A Big Data-elemzések a viselkedést kutatják. Nem kérdeznek, nem avatkoznak közbe, hanem csak megfigyelnek. Ezáltal kiszűrik az olyan hibalehetőségeket, mint a „válaszadók” megfelelési vágya vagy a hazugságok.


