Kad SQL nije dovoljan: kontrola za nove masovne centre podataka

Sadržaj

Google datotečni sustav: velika studija slučaja
Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života
Pogled na temeljnu tehnologiju
Kako drugi veliki sustavi to postižu?
Održavanje DFS-a

Oduzeti:

Programeri i inženjeri moraju kontinuirano raditi na ubrzavanju i poboljšanju usluga na platformi koja je narasla daleko iznad njihovih klasičnih arhetipa iz razdoblja devedesetih.

Uz svu gužvu o golemim NSA podatkovnim centrima koji drže gazilije dijelova podataka o našem privatnom životu, postoji jedna stvar o kojoj se nije puno govorilo, barem na CNN-u. To uključuje inženjerski problem koji se pojavio zajedno s tehnologijom oblaka, velikim podacima i impresivnim centrima za fizičku pohranu podataka koji se danas grade diljem svijeta. Pa što je to? Pa, bez obzira na to tko upravlja nekim od mamutskih IT sustava koji pokreću ove objekte, postoji potreba za softverskim sustavima koji pomažu da svi ti podaci brzo uđu i izađu iz cjevovoda. Ta potreba predstavlja jedno od najzanimljivijih IT pitanja ili zagonetki s kojima se profesionalci danas suočavaju.

Kao što mnogi stručnjaci ističu, današnja ekstremna potražnja za obradom podataka daleko nadilazi tradicionalne pristupe. Jednostavno rečeno, korištenje jednostavnih struktura baze podataka i alata poput SQL sučelja upita neće osigurati dovoljno procesijske snage ili funkcionalnosti za slične vlasničkim sustavima koji su se razvili u posljednjih nekoliko godina. Arhivi današnjih velikih tehnoloških tvrtki trebaju izuzetno skalabilnu tehnologiju. Potrebni su im alati za obradu podataka koji mogu unositi i izlaziti rezultate u mnogo većoj količini od one koju pojedini poslužitelj može olakšati. Potrebna su im rješenja koja se mogu brzo povećati za rast, rješenja koja uključuju složene razine umjetne inteligencije, rješenja koja je dizajnirano za jednostavno upravljanje informatičkim odjelom.

Postavlja se pitanje kako tvrtke i vladine agencije osvajaju ograničenja tradicionalnog puta obrade podataka? Ovdje dobro pogledajte jednu vrlo obećavajuću mogućnost: Softver koji upravlja velikim podacima i administracijom višestrukih podatkovnih centara.

Google datotečni sustav: velika studija slučaja

Vlasnička tehnologija koju Google koristi za pristup svojim podatkovnim centrima jedan je od najboljih primjera uobičajenih modela za upravljanje velikim podacima i višestruku administraciju podatkovnih centara. Google datotečni sustav (GFS), razvijen 2003. godine, dizajniran je tako da podržava ogromnu količinu brzih izmjena podatkovnih sustava koji su dio unošenja toliko novih podataka u jednu platformu i van nje dok milijuni korisnika kliknu na u isto vrijeme. Stručnjaci ovo nazivaju distribuiranim datotečnim sustavom i koriste izraz "pohrana podataka podataka" da bi opisali ove vrlo složene tehnike. U stvarnosti, međutim, ovi izrazi čak i ne ogrebotine po površini opisuju ono što djeluje.

Pojedinačno, značajke i komponente koje čine sustav poput GFS-a možda više nisu revolucionarne, ali su složene. Mnogi od njih su na ovoj stranici obuhvaćeni kao relativno nove inovacije koje su dio temelja za novi, uvijek uključeni, uvijek povezani globalni informatički sustav. Kolektivno, sustav poput GFS-a mnogo je više od zbroja njegovih dijelova: to je uglavnom nevidljiva, ali izuzetno složena mreža koja se na ovaj način baca na pojedinačne dijelove podataka i koji bi u procesu koji bi vizualno bio potpuno modeliran izgledao kaos. Razumijevanje kamo idu svi podaci iziskuje mnogo energije i truda, kao što će i oni koji se bave bojnim stanicama ovih sustava to lako priznati.

"Previše je detalja koji imaju dubok utjecaj na područja upotrebljivosti - uključujući vanjsku i unutarnju fragmentaciju, ažuriranja zasnovana na zapisima u odnosu na mjesto i razine dosljednosti transakcija - da bi saželi način rada u jednoj jezgrovitoj rečenici ", kaže Momčilo Mihailov, predsjednik Uprave i suosnivač tvrtke Sanbolic.

"Distribuirani datotečni sustav je ili distribuirani agregator lokalnih prostora imena i slobodnih prostora čvorova koji sudjeluju ili je lokalni datotečni sustav koji radi na više čvorova koji pristupaju zajedničkoj pohrani uz pomoć distribuirane komponente upravitelja zaključavanja", rekao je.

Kerry Lebel stariji je menadžer proizvoda u tvrtki Automic, tvrtki poznatoj po skalabilnim platformama za automatizaciju. Lebel kaže da iako je tačno opisati DFS kao sustav koji jednostavno dodjeljuje radno opterećenje poslužiteljima priključenim na jeftine dijelove hardvera, to zapravo ne govori cijelu priču.

Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života

Ne možete poboljšati svoje programiranje kad nikoga nije briga za kvalitetu softvera.

"Ono što vam na kraju nedostaje sve je cool faktor kako oni rade ono što rade ", rekla je Lebel.

Kad se odmaknete od tehničkih detalja i samo razmislite o osnovnoj ideji iza distribuiranog datotečnog sustava, vidljiv je "cool faktor" o kojem Lebel govori. Ovi sustavi za obradu velikih podataka zamjenjuju stare sustave datoteka / mapa sa strukturama koje uključuju ne samo višestruki sustav isporuke, već i "objektno orijentirani" pristup, gdje se ogroman broj jedinica tu i tamo pretrpava kako bi se spriječilo uska grla.

Pomislite, na primjer, na najsavremeniji sustav autocesta, gdje stotine tisuća automobila nisu sravnjeni niz višeslojni pravac, već skučeni u uredne male pritoke djeteline ili vođice, koji se vrte i šalju. prema njihovim odredištima na raznim zaobilaznicama. S neba sve izgleda koreografirano kao švicarski sat. To je vrsta vizualnog modela na koji inženjeri gledaju kada sanjaju o novim načinima usmjeravanja podataka oko ograničenja tako što će ih „udariti“ na različite razine višeglasne sheme za zadržavanje podataka. Ostavljajući po strani specifikacije, ovo je vrhunski cilj sustava za rukovanje: da se ti samostalni objekti s ugrađenim metapodacima kreću najvećom brzinom do mjesta gdje trebaju biti, da bi postigli ciljeve usklađenosti, zadovoljili krajnjeg korisnika ili čak i za informiranje vrhovnog promatranja ili analize.

Pogled na temeljnu tehnologiju

Članak Seana Gallaghera koji se pojavio na Ars Technici razgrađuje GFS dizajn na dijelove koji se lakše mogu upravljati i nagovještava ono što se nalazi ispod lista na Googleu.

GFS započinje s redundantnim modelom i tolerancijom grešaka za čitanje i pisanje podataka. Ideja ovdje je da umjesto pisanja određenog ažuriranja na jedan pogon, novi sustavi pišu dijelove podataka na više odredišta. Tako će, ako jedno pisanje ne uspije, ostati drugo. Da bi se ovo prilagodilo, jedna primarna komponenta mreže koristi obradu podataka drugim podređenim jedinicama, pri čemu ponovno agregira podatke kada ih klijent "poziva". Sve to omogućuje protokol metapodataka koji pomaže identificirati gdje se određena ažuriranja i rezultati prijenosa nalaze u većem sustavu.

Drugi vrlo važan aspekt ovoga je kako ovi dvostruko teški sustavi provode dosljednost podataka. Kao što Gallagher primjećuje, GFS dizajn žrtvuje određenu dosljednost, dok još uvijek "nameće atomsku snagu" ili štiti princip kako se podaci ažuriraju na više jedinica za pohranu kako bi se vremenom uskladili. Čini se da Googleov „model opuštene konzistentnosti“ slijedi osnovnu teoriju BASE modela, koja omogućuje veću fleksibilnost u zamjenu za dulji vremenski okvir za provođenje dosljednosti.

Kako drugi veliki sustavi to postižu?

"Kad se postigne dovoljno velika razina, nedosljednosti ili korumpiranje podataka postaju neizbježne", kaže Michailov. "Prema tome, primarni cilj distribuiranih datotečnih sustava trebao bi biti sposobnost obavljanja što većeg broja operacija u prisutnosti korupcije, uz istovremeno pružanje učinkovitih metoda borbe s korupcijom." Michailov također spominje potrebu očuvanja performansi pažljivim provođenjem viška.

"Na primjer, stvaranje metapodataka (podataka o podacima) na svakom disku omogućuje tom disku da obnovi odgovarajuću strukturu podataka ako je njegova zrcalna kopija oštećena", rekao je Michailov. "Pored toga, razine RAID-a mogu se koristiti za suzbijanje kvarova u pohrani bilo na agregatoru datotečnog sustava ili na nivou zajedničkog upravitelja volumena."

Razgovarajući o drugom modelu dosljednosti, Lebel se usredotočuje na sustav nazvan Hadoop distribuirani datotečni sustav (HDFS), koji naziva "industrijskim standardom de facto".

U HDFS-u, kaže Lebel, svaki se blok podataka replicira tri puta na različite čvorove i na dva različita stalka. Podaci se provjeravaju kraj do kraja. Neuspjesi se prijavljuju u NameNode, rukovatelju podataka koji se rješava korumpiranih blokova i stvara nove.

Sve ovo podržava vrste „čistih podataka“ koji su toliko važni za integritet jednog od ovih masovnih podataka.

Održavanje DFS-a

Drugi vrlo drugačiji pogled na GFS dolazi iz članka ožičenog pisca Stevena Levyja iz listopada 2012. godine. Mnogo je blaže karakteriziranje softverskog pristupa za Googleovo zajedničko rukovanje vrhom prema dolje.

"Tijekom godina," piše Levy, "Google je također izgradio softverski sustav koji mu omogućuje da upravlja svojim bezbrojnim poslužiteljima kao da su to jedan velikanski entitet. Njeni interni programeri mogu se ponašati poput majstora lutaka, otpremajući tisuće računala za obavljanje poslova zadaci lako kao i pokretanje jednog stroja. "

To uključuje i mnoštvo na cyber osnovi i održavanje okoliša, od namjenskih ispitnih timova koji pokušavaju "razbiti" poslužiteljske sustave, do pažljivo kontroliranih temperatura u dvoranama kripti podataka.

Levy spominje i dodatne tehnologije za GFS, poput MapReduce, alata za primjenu u oblaku i Hadoopa, analitičkog motora koji dijeli neka načela dizajna s GFS-om. Ovi alati imaju vlastiti utjecaj na to kako se dizajniraju sustavi za rukovanje velikim podatkovnim centrima i što će se vjerojatno pojaviti u budućnosti. (Saznajte više o ovim tehnologijama u Evoluciji velikih podataka.)

Michailov vjeruje da MapReduce ima potencijal da podržava sve veće sustave podatkovnih centara i govori o "jedinstvenoj implementaciji" zajedničkih i agregiranih datotečnih sustava koji bi mogli zadržati nazivne čvorove agregiranog datotečnog sustava u zajedničkom klasteru sa SSD-ovima za pohranu „.

Sa svoje strane Lebel vidi odmak od skupne obrade (metoda koju podržava Hadoop) do strujne obrade, što će ove podatke podataka približiti u stvarnom vremenu.

"Što brže možemo obraditi podatke i učiniti ih dostupnima donositeljima poslovnih odluka ili našim kupcima, veća će im biti konkurentna prednost", kaže Lebel koja također predlaže zamjenu gornje terminologije obrade terminima koji su usredotočeni na krajnji korisnik. Razmišljajući o "sinkronim" aktivnostima ili aktivnostima sinkroniziranim s akcijama krajnjeg korisnika i "asinkronim" aktivnostima koje su fleksibilnije u pogledu implementacije, Lebel kaže da kompanije mogu koristiti SLA-ove i druge resurse za definiranje kako će funkcionirati određeni sustav usluga ,

Sve se, na neki način, svodi na to da programeri i inženjeri moraju kontinuirano raditi na ubrzavanju i poboljšanju usluga na platformama koje su narasle više od klasičnih arhetipa iz razdoblja devedesetih. To znači da kritički promatramo strojeve podataka i probijamo uska grla na načine koji podržavaju ne samo rastuću populaciju, već i onu eksponencijalnu promjenu koja se događa brzinom puknuća vrata, što sudionici nazivaju "sljedećom industrijskom revolucijom". Vjerojatno će oni koji probiju najviše temelja na ovim frontovima uspjeti prevladati na tržištima i gospodarstvima budućnosti.