I ja imam skoro ista pitanja kao sa pocetka teme vezana za Big Data.
Potrebne su mi preporuke i saveti kako realizovati sistem za smestanje i pretragu velike kolicine podataka.
Ukratko o podacima:
- U pitanju su Apache logovi skupljeni sa stotinak servera (razliciti klienti) u periodu od 5-6-7 godina i svaki server je vozio nekoliko domena (uglavnom subdomena)
- Nad ovim logovima treba u nekoj fazi (verovatno tokom import) da se "zakaci" i GeoIP data na osnovu IP posetioca
- U opticaju je oko 75.000 fajlova, trenutno gz i bz2 zipovani
- Zipovani fajlovi zauzimaju negde oko 350GB a raspokvani (gruba racunica) oko 3.5TB
- Broj redova (takodje gruba racunica) je negde oko 22.000.000.000 tj 22 milijarde
- Na dnevnom nivou ce se dodavati novi podaci, trenutno ne znam koliko tacno ali je to verovatno drasticno manje nego sto je gore spomenuto
Ovi podaci trebaju da se koriste u analiticke svrhe i da se nad njima izvrsavaju razni upiti.
Upiti su ovog tipa:
- koliko imam poseta za neki (sub)domen u izabranom vremenskom periodu
- kakav je trend posete za izabrani domen na nekoj geografskoj lokaciji
- koliko je puta pozvana specificna URL (recimo za neki shop checkout)
- koliki je procenat gresaka (HTTP status 500) u nekom periodu za neki (sub)domen
- itd (procena je da ce biti oko 30-50 razlicitih raporta)
Front-end koji treba da prikaze ove rezultate bi bio baziran na PHP/JS.
Pozeljno je da postoji neki SQL-like jezik za upit ovakve baze podataka mada nije moranje.
Naravno, neophodno je da se nakon pozivanja upita rezultati dobiju u nekom "razumnom" vremenu, tipa 1,2,3 sekunde ali nikako duze od toga.
Skoro je izvezno da ce ovo morati da se nekako klasteruje na X servera / nodova. Da li imate procenu na koliko servera i kave specifikacije oni trebaju da budu?
Sta se za ovakve zahteve preporucuje od SW-a?
Hadoop, HBase, Hive, Hypertable?
Nov sam u ovoj BigData oblasti i jos mi nisu jasne sve cake sta se tu desava.