Bolje pameten kot množičen

So množični podatki res tako uporabni, kot se govori zadnjih pet let, ali so bili le nov poslovni hit?
Fotografija: Pixabay
Odpri galerijo
Pixabay

Množični podatki igrajo eno ključnih vlog v četrti industrijski revoluciji. V zadnjih petnajstih letih smo jih prek interneta, telefonov, GPS, znanstvenih naprav, nadzornih kamer, satelitov in drugih tehnoloških pripomočkov nakopičili že kar 4,4 zetabajta, do leta 2020 pa naj bi jih skladno z Moorovim zakonom imeli že 40 zetabajtov, to je 44 bilijard gigabajtov. Do takrat naj bi bilo medsebojno povezanih tudi 50 milijard pametnih naprav, ki bodo zbirale in obdelovale podatke.

Zagonska podjetja, ki delujejo v segmentu infrastrukture pametnih podatkov, ki omogoča njihovo zbiranje in obdelavo, so od leta 2009, ko so množični podatki postala nova vroča stvar, do leta 2015 zbrala več sto milijonov dolarjev. Tudi v začetku leta 2016, ko strokovnjaki že govorijo o pozni fazi razvoja trga množičnih podatkov, je, recimo, podjetje DataDog, ki ponuja enostaven monitoring podatkov, ki jih kopičijo aplikacije v oblakih, od investitorjev dobilo vrtoglavih 94 milijonov dolarjev, do letos pa so se vlaganja v to podjetje povečala na 149 milijonov dolarjev.

Leta 2015 so investicije v zagonska podjetja, povezane z množičnimi podatki, znašale kar 11 odstotkov vseh investicij v celotnem tehnološkem sektorju. Zdravstvo, zavarovalništvo, nadzor, vreme, kmetijstvo, energetika, trgovina, logistika, spletna prodaja, oglaševanje, množični podatki so v zadnjih letih prepoznani kot pomemben vir napredka v skoraj vsaki vertikali vsake industrije.

Pixabay
Pixabay

Z množičnimi podatki do lažjega prenosa znanja

Za lažjo predstavo, kje so prednosti za uporabo množičnih podatkov pri poslu, si poglejmo nekaj domačih primerov, s katerimi so se ukvarjali v podjetju Bisnode. Slovenski avtomobilski trgovec si je pri osvajanju tujega trga zastavil preprosto, kako hitro pridobiti kakovostne nove kupce. Namesto naključnega »streljanja« po trgu so v sodelovanju z omenjenim podjetjem razvili model, ki je opredelil seznam ciljnih strank ter učinkovito napovedal, kako se bo skozi leto gibalo povpraševanje po vozilih.

Posledice nepravilne obdelave in interpretacije podatkov so lahko strašljive.

Ali pa ko je proizvodno podjetje ugotovilo, da nekaj od njegovih 50 največjih dobaviteljev prihaja iz držav, kjer je na voljo malo poslovnih informacij o poslovnih subjektih. »Ker imamo vpogled v globalno mrežo podatkov, smo na podlagi napovedne analitike zanje pripravili rešitev, ki jim omogoča, da opredelijo, kateri od 50 dobaviteljev so 'varni', katere posle pa je nujno zavarovati,« je za Svet kapitala pojasnil Milan Dragič, generalni direktor podjetja Bisnode Južni trgi.

Množični podatki pomagajo tudi pri prenosu znanja. Tako se je po pripovedovanju Dragiča ustanovitelj srednjega trgovskega podjetja v Sloveniji pred dvema letoma znašel pred izzivom, kako svoje znanje, ki je raslo in nastajalo več kot dve desetletji, varno in učinkovito prenesti na naslednika.

»Podjetje je našim poslovnim analitikom zaupalo dostop do vseh podatkov: računov, naročilnic itn., ki jih je dve desetletji zajemalo prek sistema podpore poslovanju (ERP). S temi in podatki iz lastnih baz so naši analitiki izdelali modele, ki razkrivajo nakupne značilnosti kupcev. Izkaže se, na primer, da kupec, ki kupuje paradižnik, praviloma kupi tudi rukolo. Poznavanje teh značilnosti je osnova, da podjetje lahko oblikuje na nakupnih navadah utemeljene košarice ponudbe, hkrati pa lahko izboljšuje tudi ekonomiko na nabavni strani, saj ve, kako se bo gibalo povpraševanje, in temu ustrezno prilagodi čas nabave ter zmanjšuje stroške zalog,« pojasnjuje sogovornik.

Primerov je ogromno. A ni vsa množica podatkov tudi kakovostna. Prispevek v znanstvenem tedniku Nature je lepo pokazal, kaj se zgodi, ko podatkov ne obravnavamo celostno. Javnomnenjske raziskave v času ameriških predsedniških volitev so namreč podajale popolnoma drugačne rezultate, kot so bili na koncu volilni izidi. Zakaj? Izvajalci anket lahko namreč kličejo le na stacionarne telefone, ki pa so vedno manj uporabljeni, saj večina Američanov uporablja prenosne telefone. Kdo so ti, ki uporabljajo stacionarne telefone, izvajalci anket ne vedo, kar pomeni, da so anketirali nepoznano in zagotovo nereprezentativno skupino. Tudi takšnih primerov je veliko in imajo lahko tudi hude etične posledice, kot je bila, recimo, izključitev najslabših študentov z univerze Mount Saint Mary’s, da je ta imela boljše povprečje uspešnosti študentov.

Pixabay
Pixabay

Pozor, podatki lahko zavajajo

Pomanjkljivosti je veliko, priznava tudi Dragič. »Z velikim volumnom podatkov pride tudi veliko pomanjkljivih in napačnih. Te je treba preveriti, dopolniti, obogatiti ter umestiti v pravi kontekst – za to sta potrebni širina in globina znanja. V veliko pomoč podatkovnemu servisu, ki da vsebinsko težo podatkom, so tako tudi orodja, ki omogočajo hitrejšo obdelavo in preverjanje podatkov, ter algoritmi in procedure, ki opozorijo na morebitne napake.«

Lepi grafi, ki so sami sebi namen

Največje težave pri množičnih podatkih so tako volumen, kakovost in ažurnost. »Velik volumen podatkov zahteva veliko prostora, hitre povezave in veliko procesorske moči pri obdelavi. Tradicionalne oblike relacijskih podatkovnih baz pri tem hitro ne ustrezajo več predvsem raznovrstnosti podatkov, hitrosti poizvedb in iskanju povezav med podatki ter horizontalnemu širjenju njihovega nabora. Nabor rešitev za obvladovanje tega volumna podatkov se povečuje, zato je dobro uporabiti ravno tisto tehnologijo, ki najbolje reši konkreten primer ali težavo. Množičnih podatkov ni mogoče obdelovati po domače. Bisnode za hitro fleksibilno iskanje in sporočanje uporablja rešitve NoSQL, medtem ko so končni rafinirani podatki še vedno na zanesljivih relacijskih podatkovnih bazah,« pojasnjuje sogovornik.

Leta 2016, ko strokovnjaki že govorijo o pozni fazi razvoja trga množičnih podatkov, je podjetje DataDog od investitorjev dobilo vrtoglavih 94 milijonov dolarjev.

Tretji izziv zajema množice podatkov pa postane tudi ažurnost. Ne samo da je potreba in želja te podatke redno zajemati in posodabljati, temveč tudi hitro in ažurno obdelati ter prikazati v rešitvah in produktih. Ves proces od zajema, obdelave, preračunov in prikaza mora biti tako dobro usklajen in tekoč.

Vedeti moramo, da imajo množični podatki vrednost le, če iz njih razberemo neko dodano vrednost oziroma informacijo, drugače skrito med množico podatkov. »Temu procesu rečemo tudi podatkovno rudarjenje. Informacija, pridobljena v njem, mora imeti korist in težo pri poslovnih odločitvah in ne le vizualne lepotne vloge v grafih,« poudarja Dragič.

Pixabay
Pixabay

Pred tremi leti se je mlad podjetnik odpravil v London iskat poslovne partnerje, ki bi mu dobavljali tkanino za proizvodni proces modnih dodatkov. Na spletu je poiskal potencialne dobavitelje, vzpostavil stik z njimi z željo po srečanju in preverbi materialov. Po elektronski pošti in telefonu se je dogovoril za srečanje z 11 potencialnimi dobavitelji. Ko je prišel na dogovorjene lokacije, je pri več kot polovici ugotovil, da proizvodnega oziroma skladiščnega obrata tam sploh ni, in kaj kmalu spoznal, da gre za panogo, kjer dobavitelji obstajajo zelo kratek čas ali jih v resnici sploh ni, kar pomeni, da naivnim strankam pošljejo račun za naročeno blago, ki ga nikoli ne dostavijo.

Temu se tudi z uporabo množičnih podatkov lahko izognemo, pojasnjuje Dragič. »Iz množičnih podatkov se proizvedejo pametni podatki. Bonitetne ocene in modeli, s katerimi hitro ugotoviš tako uspešnost, likvidnost kot plačilne navade ali nevarnost blokade podjetja, so končni produkt tega procesa obdelave množičnih podatkov. Z njimi lahko hitro razločimo, kateri poslovni partnerji so dobri in kateri slabi ali tvegani, ali najdemo nove. Ker se količina, raznovrstnost in število virov podatkov še povečujejo, se te ocene še izboljšujejo. Odločanje samo na podlagi bilančnih podatkov se zato dopolnjuje s tožbami, s podatki iz saldakontov, podatki o davčnih neplačnikih, lastniških mrežah, mednarodnih povezavah in računih, javnih naročilih, nepremičninah, člankih, terjatvah in mnogo več.«

Mlad podjetnik, ki je iskal dobavitelje, je ob prihodu na dogovorjene lokacije ugotovil, da proizvodnega oziroma skladiščnega obrata tam sploh ni, in spoznal, da bi bil lahko žrtev prevare. Kako podatki lahko to preprečijo?

Pri razvoju analitike se nad podatki uporabljajo napredne statistične metode za diagnostično, opisno in napovedno analitiko. Pri tem Bisnode, tako v Sloveniji kot na ravni skupine Bisnode, uporablja procese in orodja za izdelavo napovednih modelov, ki se na podlagi izkušenj iz simulacij učijo, gradijo in nadgrajujejo. Različne metode tega tako imenovanega strojnega učenja oziroma »machine learninga« se uporabijo glede na problem in samo uspešnost takšnega modela. S temi metodami pa se širi tudi nabor rešitev, ki jih lahko ponudi ter podjetjem pomaga pri širšem spektru težav, tako pri finančnem planiranju, prodajnih procesih, marketinških projektih kot pri optimizaciji poslovanja in vodenja.

Vsekakor so podatki, ki jih obdelujejo podjetja, kot so Bisnode in druga analitična podjetja, zanesljivejši od podatkov v aplikacijah. Vsaj v tej fazi razvoja. Z umetno inteligenco in strojnim učenjem bodo postajale zanesljivejše tudi aplikacije, ali kot je dejal Matt Turck, izvršni direktor investicijskega sklada FirstMark Capital, bo termin množični podatek z razvojem popolnoma izginil ali pa postal tako zastarel, da ga nihče več ne bo uporabljal. »To je ironična usoda uspešnih tehnologij, ki se najprej počasi širijo, potem skačejo že izza vsakega vogala, na koncu pa postanejo nevidne.«

Več iz rubrike