Analitika Velikih Podataka

Značajan deo BioSensovih istraživanja u oblasti Velikih Podataka je fokusiran na dva tipa podataka koji zahtevaju velik memorijski kapacitet za skladištenje i ekstremno efikasne algoritme za obradu podataka koji mogu da se izvrše u zahtevanom vremenskom roku.

 

Prvi od njih su satelitske slike. Sentinel 2 sateliti isporučuju nove slike u 13 pojasa za bilo koju tačku na Zemlji, približno svakih 5 dana. Ove slike dolaze u isečcima dimenzija 100×100 km2, sa prostornom rezolucijom od 10m. U okviru Cybele Projekta, na primer, analiziramo satelitske slike cele Evrope da bismo klasifikovali polja soje, što znači da treba da prođemo kroz stotine isečaka i primenimo nad njima algoritam za klasifikaciju. U takvim situacijama, radimo paralelizaciju koda radi bolje i efikasnije eksploatacije multicore server arhitekture, ubrzavajući procese korišćenjem biblioteke Cython, dok u isto vreme prilagođavamo implementaciju da umanjimo računarsku kompleksnost algoritama.

 

Drugi tip podataka su liste poziva korisnika mobilne telefonije i oni zadovoljavaju sve “V”-ove analitike velikih podataka. Ovi podaci se sastoje iz liste uspostavljenih poziva, razmenjenih poruka i registrovanog internet saobraćaja i ogromne su veličine. Važno pitanje u obradi je vezano za privatnost i izdvajanje korisnih informacija iz anonimizovanih i agregiranih skupova podataka predstavlja veliki izazov. Takođe, iako su podaci semi-struktuirani, tradicionalna RDBMS tehnologija za analitiku podataka nije primenljiva na skupove ove veličine. U tu svrhu razvijamo tokove rada za obradu korišćenjem Apache porodice tehnologija – Spark, Hadoop i Hive. One nam daju mogućnost da dobijemo dodatni uvid u ljudsko ponašanje, šablone kretanja i saznamo više o interakciji između ruralnih i urbanih oblasti.