Definicija Big Dаtа: pojаm koji oznаčаvа velike i kompleksne setove podаtаkа, kod kojih trаdicionаlne аplikаcije zа obrаdu podаtаkа nisu primjenljive. Te skupove podаtаkа kаrаkterišu rаznovrsnost formаtа, velike brzine obrаde i pristupа i veliki obim informаcijа.

Takođe, Big data podrazumjeva i projektovаnje i reаlizаciju infrаstrukture i servisа zа sklаdištenje velikih količinа podаtаkа, njihovu pretrаgu, аnаlizu, dijeljenje i vizuelizаciju.

Termin Big dаtа se često podrazumjeva upotrebu predikаtivne аnаlitike ili drugih nаprednih metodа zа izdvаjаnje vrijednosti iz podаtаkа, а ne sаmo nа određenu veličinu skupа podаtаkа.

Big dаtа kao koncept kаrаkteriše korišćenje nerelаcionih bаza podаtаkа umjesto relаcionih. Primjer su Google Bigtаble koji možete besplatno probati na ovoj adresi: https://cloud.google.com/bigtable/ i Amаzonov Dynаmo na adresi: https://aws.amazon.com/dynamodb/.

Jedno od Open Source softverskih rješenjа zа infrаstukturu Big Dаtа je Hаdoop koju koristi Republika Irska u svojoj poreskoj administraciji. Pogledajte detalje o ovom projektu na adresi https://hadoop.apache.org/ a tu je i link do besplatnog treninga: https://www.guru99.com/bigdata-tutorials.html

Big Dаtа pružа mogućnost (ne nužno) obrаde podаtаkа u reаlnom vremenu, а pretrаgа se vrši korišćenjem Mаp reduce (link) аlgoritmа.

Šta je MapReduce i kako radi pogledajte na Hadoop MapReduce Tutorialu: https://www.guru99.com/introduction-to-mapreduce.html

Nа primjer, rezultаti pretrаge u Google pretrаživаču se dobijаju u milisekundаmа uprаvo zаhvаljujući ovim tehnologijаmа.

Da ponovimo

Big Data se uopšteno odnosi na skupove podataka koji su tako veliki po obimu i tako složeni da tradicionalni softverski proizvodi za obradu podataka nisu u mogućnosti da preuzmu, upravljaju i obrađuju podatke u razumnom vremenskom roku. Ovi veliki skupovi podataka mogu uključivati strukturisane, nestrukturisane i djelimično strukturisane podatke, od kojih svaki mogu da se prekopavaju za uvide. Koliko podataka zapravo predstavlja "Big Data", otvoreno je za raspravu, ali obično može biti više terabajta, petabajta - i za najveće projekte u opsegu eksabajta.

Karakteristike Big Data

  • ekstremni obim (Volume) podataka,
  • širok spektar (Variety) tipova podataka
  • brzina (Velocity) kojom se podaci moraju obraditi i analizirati

Podaci koji čine Big Data skladište mogu da potiču iz izvora koji uključuju web lokacije, društvene medije, desktop i mobilne aplikacije, naučne eksperimente i - sve češće - senzore i druge uređaje na internetu stvari (IoT).

Koncept Big Data sadrži skup povezanih komponenti koje omogućavaju organizacijama da koriste podatke za praktične potrebe i rješavaju niz poslovnih problema. Ovo uključuje:

  1. IT infrastrukturu potrebnu za podršku Big Data;
  2. Analitiku koja se primjenjuje na podatke;
  3. Tehnologiju potrebnu za projekte Big Data;
  4. Povezane skupove vještina i
  5. Stvarne slučajeve za koje je potrebno da se koristi Big Data.

Koja je uloga Analitičara podataka (eng: Data Scientist)

On zna da komunicira sa ljudima kao pripovjedač i prenese im razumijevanje određenih procesa oslikanih u svim tim podacima, jer oni sami nemaju vještinu i znanje da dođu do tih rezultata. Sa druge strane, Data Scientist mora da bude u stanju da svoje tvrdnje opravda prikazivanjem strogog metodološkog procesa.

Umjesto slijepog "rudarenja" po podacima, sve kreće od brižljivo postavljenih hipoteza koje se mogu oboriti. Dalje se razlikuje samo metodologija prikazivanja rezultata dok je konačni cilj uvijek u službi biznisa i donošenja ispravnih poslovnih odluka.

Njegovi rezultati uvijek moraju imati upotrebnu vrijednost, jer će biti odmah iskorišćeni ili za donošenje odluke čije se posljedice mogu jasno izmjeriti, ili za pravljenje nove usluge, funkcionalnosti ili aplikacije, čija se upotreba, a samim tim i vrijednost, jako lako može izmjeriti.

Pored znanja statistike, koje nije presudno, i obrade podataka, programiranja i poznavanje baza podataka, neophodne su i neke ne-tehničke veštine, kao što je domensko znanje iz oblasti kojom se bavite (npr. porezi) i kvalitetna vizualizacija i komunikacija podataka i nalaza (što je često više umjetnost nego nauka).

Karakteristika ovog posla više je širina, nego specijalizacija u bilo kojoj od ovih oblasti.

Big Data i analitika

Ono što predstavlja stvarnu vrijednost svih Big Data koje organizacije prikupljaju je analitika primjenjena na podatke. Bez analitike, to bi bila samo gomila podataka sa vrlo ograničenom poslovnom upotrebom.

Analitika može da se odnosi na osnovne aplikacije poslovne inteligencije ili naprednije, prediktivne analitike poput onih koje koriste naučne organizacije. Među najnaprednijim tipovima analitike podataka je rudarenje podataka (engl. data mining), gdje Data analitičari procjenjuju velike skupove podataka kako bi identifikovali odnose, obrasce i trendove.

Analitika podataka može uključivati istraživačku analizu podataka (da identifikuje obrasce i odnose u podacima) i potvrđujuću (engl. confirmatory) analizu podataka (koja primjenjuje statističke tehnike kako bi se utvrdilo da li je pretpostavka o određenom skupu podataka tačna).

Druga razlika je kvantitativna analiza podataka (ili analiza numeričkih podataka koji imaju kvantifikovane promjenljive koje se mogu statistički uporediti) za razliku od kvalitativne analize podataka (koja se fokusira na nenumeričke podatke kao što su video, slike i tekst).

IT infrastruktura za podršku Big Data

Da bi Big Data koncept funkcionisao, organizacije moraju imati na raspolaganju infrastrukturu za prikupljanje i čuvanje podataka, obezbjeđivanje fizičkog pristupa i obezbjeđenje obrađenih tj. formiranih informacija dok su u skladištu ili i u tranzitu.  Na visokom nivou, to uključuje sisteme za skladištenje i servere namjenjene za Big Data, softver za upravljanje podacima i njihovom integracijom, softver za poslovnu inteligenciju i analizu podataka i aplikacije za Big Data.

Većina ove infrastrukture će vjerovatno biti u prostorijama organizacije, jer kompanije žele u dalje da koriste svoje Data centre i svoju infrastrukturu. Ali sve više organizacija se oslanja na usluge računarstva u oblaku (Cloud) da bi se nosile sa velikim dijelom njihovih zahtjeva za Big Data. Prikupljanje podataka zahtjeva izvore za prikupljanje podataka. Mnoge od njih - kao što su web aplikacije, društveni mediji, mobilne aplikacije i arhive e-pošte - već postoje.

Da bi se čuvali svi dolazni podaci, organizacije moraju imati odgovarajuća skladišta podataka. Među opcijama za skladištenje su tradicionalna skladišta podataka i skladištenje u oblaku. Alati bezbednosne infrastrukture mogu uključivati kriptovanje podataka, autentifikaciju i autorizaciju korisnika i druge kontrole pristupa, sisteme za praćenje, mrežne firewall-e, upravljanje mobilnošću u preduzeću i druge proizvode za zaštitu sistema i podataka.

Tehnologije specifične za Big Data

Pored gore navedene IT infrastrukture koja se koristi za podatke uopšte, postoji nekoliko tehnologija specifičnih za Big Data koje bi vaša IT infrastruktura trebalo da podržava.

Ekosistem Hadoop

Već pomenuti, Hadoop je jedna od tehnologija koja je blisko povezana sa Big Data. Projekat Apache Hadoop razvija softver otvorenog koda za skalabilno, distribuirano računarstvo.

Softverska biblioteka Hadoop predstavlja okvir koji omogućava distribuiranu obradu velikih skupova podataka preko klastera računara pomoću jednostavnih programskih modela. Dizajniran je da se skalira od jednog servera pa sve do hiljade servera, od kojih svaki nudi lokalno računanje i skladištenje.

Apache Spark

Deo ekosistema Hadoop, Apache Spark je radni okvir otvorenog koda za klastersko računarstvo koji služi kao motor za obradu Big Data u okviru Hadoop-a. Spark je postao jedno od ključnih okruženja za distribuiranu obradu podataka i može da se rasporedi na različite načine. On pruža izvorno povezivanje za jezike Java, Scala, Python (pogotovo za distro Anaconda Python) i R programske jezike (R je posebno pogodan za Big Data), a podržava SQL, podatke u strimovanju, mašinsko obučavanje i obradu grafova.

Jezera podataka

Jezera podataka su skladišta koja čuvaju izuzetno velike količine sirovih podataka u izvornom formatu dok podaci ne budu potrebni kod poslovnih korisnika. Pomoć u podsticanju rasta jezera podataka predstavljaju inicijative digitalne transformacije i rast IoT-a. Jezera podataka su dizajnirana da korisnicima olakšaju pristup velikim količinama podataka kada se pojavi potreba.

NoSQL baze podataka

Konvencionalne SQL baze podataka su dizajnirane za pouzdane transakcije i ad hok upite, ali imaju ograničenja kao što su rigidna shema koja ih čini manje pogodnim za neke vrste aplikacija. NoSQL baze podataka rješavaju ta ograničenja tako što čuvaju podatke i upravljaju njima na način koji omogućava veliku brzinu rada i veliku fleksibilnost. Mnoge su razvijene u kompanijama koje su tražile bolje načine za čuvanje sadržaja ili obradu podataka za velike web stranice. Za razliku od SQL baza podataka, mnoge NoSQL baze podataka mogu da se skaliraju horizontalno preko stotina ili hiljada servera.

Baze podataka u memoriji

Baza podataka u memoriji (IMDB - in-memory data base) je sistem za upravljanje bazama podataka koji se za skladištenje podataka prvenstveno oslanja na glavnu memoriju, a ne na disk. Baze podataka u memoriji su brže od baza podataka optimizovanih za diskove, što je važno za analize Big Data i stvaranje skladišta podataka (engl. warehouse) i centara podataka (engl. data mart). Primjer je SAP HANA https://www.sap.com/products/hana.html.

Vještine za Big Data

Big Data i analitika za Big Data zahtjevaju specifične vještine, bilo da su unutar organizacije ili preko konsultanata. Mnoge od ovih vještina su povezane sa ključnim komponentama tehnologije Big Data, kao što su Hadoop, Spark, NoSQL baze podataka, baze podataka u memoriji i softver za analitiku. Druge su specifične za discipline kao što su nauka o podacima, rudarenju podataka, statistička i kvantitativna analiza, vizuelizacija podataka, opšte programiranje i struktura podataka i algoritmi. Takođe postoji potreba za ljudima koji imaju sveobuhvatne menadžerske sposobnosti da vode velike projekte podataka od početka do kraja (Project Management).

S obzirom na to kako su projekti analize Big Data postali uobičajeni i na nedostatak ljudi na tržištu rada sa ovakvim vrstama vještina, pronalazak iskusnih profesionalaca može biti jedan od najvećih izazova za organizacije.

Slučajevi korišćenja Big Data

Big Data i analitika mogu se primjeniti na mnoge poslovne probleme i slučajeve korišćenja. Evo nekoliko primjera:

  • Analitika klijenata. Kompanije mogu ispitati podatke o klijentima kako bi poboljšale iskustvo korisnika, poboljšale stope konverzije (npr. posjete web prodavnici u kupovinu) i povećale zadržavanje.
  • Operativna analitika. Poboljšanje operativnih performansi i bolje korišćenje korporativnih sredstava su ciljevi mnogih kompanija. Analiza Big Data može pomoći preduzećima da pronađu načine za efikasnije poslovanje i poboljšavanje performansi.
  • Prevencija prevara. Analiza podataka može pomoći organizacijama da otkriju sumnjive aktivnosti i obrasce koji bi mogli ukazivati na varljivo ponašanje i pomoći u ublažavanju rizika. O ovome ćemo i konkretno nešto kasnije.
  • Optimizacija cijena. Kompanije mogu da koriste analizu Big Data kako bi optimizovale cijene koje naplaćuju za proizvode i usluge, što pomaže povećanju prihoda.

Jednostavan primjer upita za Big Data softver (eng: Regular expressions - Regex)

Potražite račune za međunarodni platni promet IBAN tako što ćete pronaći niza karaktera koji imaju FI (država Finska kao primjer) i 16 brojeva koji mogu ili ne da sadrže razmake između:

FI(([[:space:]]+)?[[:digit:]]){16}

Opcije za pronalaženja informacija iz velikih baza podataka

  1. Razdvajanje podataka i zadataka različitim procesorskim jezgrima (u R, zahtjeva istu količinu RAM-a)
    1. podaci bi bili uređeni npr. po abecedi ili na neki drugi način
    2. iterativno pretraživanje možda nije opravdano
  2. Dijeljenje zadataka na više procesorskih jezgara (u R zahtjeva RAM x broj jezgara)
    1. podaci mogu biti različiti na različitim jezgrima (i memorijskim okruženjima)
    2. Lokalno možda neće biti moguće sa ograničenim količinama RAM-a

Web Crawling - Skeniranje web sajtova - tehnika preuzimanja velikih količina podataka sa interneta

Potrebno je otprilike oko 90 minuta da alat za skenira 2000 web sajtova (eng: seed) sa dubinom 6. Od toga, je cca 70% uspješnost skeniranja. Alat prolazi kroz korake prikazane na sljedećoj slici:

Ako se npr. bavite prikupljanjem javnih prihoda možete doći do podataka treće strane npr. ako vas interesuju kompanije koje se bave online prodajom u Web Crawling softver možete navesti sljedeće ključne riječi koje imaju znakove ekonomske aktivnosti (sve navedeno se pože prevesti i ponoviti na srpskom jeziku) uz geolokacijsko ograničenje:

  • email address (koje se pominju na određenim portalima, forumima, društvenim mrežama)
  • Shopping cart
  • Download buttons
  • Shipping terms
  • terms & conditions
  • privacy policy
  • ad networks
  • affiliate links
  • social network connections
  • i slično.

Dobijene podatke treba parsirati, prečistiti i dalje obrađivati u pomenutim softverima sa dodatnim sljedećim podacima dobijenim po službenoj dužnosti:

  • Registar nekretnina
  • Registar stanovništva
  • Zemljišna knjiga
  • Registar vozila
  • Registar ekonomskih aktivnosti (ukoliko ga država posjeduje)
  • Registar zapošljavanja
  • Centralnom bankom
  • Podacima iz APIF-a (bilans uspjeha),
  • Komercijalnim bankama (tekući, žiro i devizni računi)
  • Registrom socijalnih davanja
  • Podacima iz poreskih evidencija u zemlji i svijetu
  • itd...

Ako na navedene rezultate primjenite Benfordov zаkon, tаkođe poznаt i kаo zаkon prve cifre (u mnogim spiskovimа brojevа koji potiču iz izvorа podаtаkа iz stvаrnog životа, rаspodjelа vodeće cifre prаti specifičnu, ne-rаvnomernu rаspodjelu. Premа ovom zаkonu, prvа cifrа je 1 gotovo trećinu vremenа, veće cifre se pojаvljuju kаo vodeće cifre sа sve mаnjom i mаnjom frekvencijom, sve do cifre 9 kojа se pojаvljuje kаo prvа cifrа mаnje nego jednom u dvаdeset slučаjevа. Osnovа ovog „zаkonа“ jeste dа su vrijednosti koje se dobijаju mjerenjimа u stvаrnom životu često rаspodeljene logаritаmski, zbog čegа je logаritаm vrijednosti ovih mjerenjа, uopšte govoreći, rаvnomjerno rаspodjeljen, i za navedeni prikaz obezbjedite adekvatnu vizuelizaciju dobijenih rezultata - na pravom ste putu da budete impresionirani Big Data analizom.


Dobrodošli

Hvala Vam što ste izabrali posjetiti moj web sajt.

Na njemu ćete naći stvari koje volim:

  • podatke o meni,
  • mojoj domovini, Republici Srpskoj,
  • mojoj opsesiji, Informacionim tehnologijama i
  • sitnicama koje život čine ljepšim.

Naravno, vidjećete i nešto što se nalazi između redova, moju ljubav i trud da ovaj sajt i komunikaciju prema Vama učinim originalnom, korisnom i atraktivnom i obećanje da neću prestati da se trudim.

Ukoliko nađete da Vam je ova posjeta koristila u bilo kom pogledu, napišite mi to, veoma ćete me obradovati.

Srdačan pozdrav i uživajte u životu!

Dejan MAJKIĆ

Prijatelji sajta

Povežite se

Zar se još nismo povezali? Ako ne, kriv sam što vam do sada nisam pokazao sljedeće magične linkove: