Ključ kvalitete velike analitike podataka: Razumijevanje različitog - Transkript TechWise epizode 4

Autor: Roger Morrison
Datum Stvaranja: 17 Rujan 2021
Datum Ažuriranja: 21 Lipanj 2024
Anonim
Ključ kvalitete velike analitike podataka: Razumijevanje različitog - Transkript TechWise epizode 4 - Tehnologija
Ključ kvalitete velike analitike podataka: Razumijevanje različitog - Transkript TechWise epizode 4 - Tehnologija

Sadržaj


Izvor: Jakub Jirsak / Dreamstime.com

Oduzeti:

Domaćin Eric Kavanagh razgovara o analitikama velikih podataka s stručnjacima iz industrije.

Eric: Dame i gospodo, kraj je 2014. godine - barem, gotovo. To nam je posljednja internetska emisija u godini, narode! Dobrodošli u TechWise! Da svakako! Moje ime je Eric Kavanagh. Ja ću biti vaš moderator za strašan webcast, ljudi. Stvarno sam, jako uzbuđena. Imamo dva sjajna analitičara na mreži i dvije sjajne tvrtke - pravi inovatori u čitavom ovom ekosustavu velikih podataka. I govorit ćemo sve o ključu velike analitike podataka je razumijevanje razlike. Dakle, idemo naprijed i zavirite, narode.


Imamo nekoliko prezentatora. Kao što vidite, uistinu je vaš vrh. Mike Ferguson zvao se iz Velike Britanije, gdje je morao steći posebne privilegije da ostane do kasno u svojoj poslovnoj zgradi. To je za njega kasno. Imamo Dr. Robina Bloora, našeg vlastitog glavnog analitičara iz Bloor Grupe. I imat ćemo Georgea Corugeda, CEO-a i suosnivača RedPoint Global-a, i Keitha Renison-a, Senior Solutions Architect-a iz Instituta SAS. Ovo su fantastične kompanije, ljudi. To su tvrtke koje stvarno inoviraju. I idemo istražiti neke dobre stvari onoga što se trenutno događa u cijelom svijetu velikih podataka. I suočimo se s tim, mali podaci nisu nestali. U vezi s tim, dopustite mi da ovdje pružim svoj sažetak.



Dakle, postoji stari francuski izraz: "Što se više stvari promijene, više će ostati iste." I suočimo se s nekim činjenicama ovdje - veliki podaci neće riješiti probleme malih podataka. Mali podaci o tvrtki i dalje su vani. I dalje je svugdje. To je gorivo za današnje informacijsko gospodarstvo. A veliki podaci nude kompliment ovim takozvanim malim korporativnim podacima, ali ne zamjenjuju male podatke. Još će biti okolo. Volim puno stvari o velikim podacima, posebno stvari poput strojno generiranih podataka.


I danas ćemo vjerojatno razgovarati malo o podacima na društvenim mrežama, što je također vrlo moćna stvar. Ako razmišljate, na primjer, o tome kako se društveno promijenilo poslovanje, dobro razmislite o tri brza web mjesta ovdje: LinkedIn i. Razmislite o činjenici da prije pet godina nitko nije radio takve stvari. ovih je dana apsolutni žig. naravno, ogromna je. To je gargantuan. A onda, LinkedIn je de-facto standard za korporativno umrežavanje i komunikaciju. Te su web lokacije humonne, a kako bismo mogli iskoristiti podatke koji su u njima, oživjet će se neka funkcionalnost za promjenu igara. Doista će učiniti puno dobra za mnoge organizacije - barem one koje to koriste.



Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života

Ne možete poboljšati svoje programiranje kad nikoga nije briga za kvalitetu softvera.

Dakle, upravljanje i dalje je važno. Opet, veliki podaci ne umanjuju potrebu za upravljanjem. Iskreno, potpuno se nova potreba usredotočiti na to kako upravljati svijetom velikih podataka. Kako možete osigurati da imate svoje postupke i pravila; da pravi ljudi dobivaju pristup pravim podacima; da imate kontakte, ovdje imate uključene loze? Zapravo znate odakle podaci dolaze, što se s njima dogodilo. I to se sve mijenja.


Iskreno sam impresioniran nekim onim što sam vidio vani u ovom cijelom novom svijetu koji koristi Hadoop ekosustav, što je, naravno, puno više od skladištenja u smislu funkcionalnosti. Hadoop je također računalni motor. Tvrtka mora smisliti kako iskoristiti računalnu snagu, mogućnost paralelne obrade. Oni će napraviti stvarno, stvarno cool stvari. Danas ćemo naučiti o tome.


Drugo što treba spomenuti, to je nešto o čemu je dr. Bloor govorio u nedavnoj prošlosti, a to je da inovacijski val nije gotov. Dakle, vidjeli smo mnogo, naravno, pozornosti oko Hadoopa. Vidjeli smo tvrtke poput Cloudera i Hortonworks, da stvarno prave valove. I danas razvijaju partnerstva s, dobro, kompanijama na pozivu, sasvim iskreno. I razvijaju partnerstva s puno ljudi. No, val inovacija nije gotov. Iz Zaklade Apache djeluje više projekata koji mijenjaju ne samo krajnju točku, ako hoćete - aplikacije koje ljudi koriste - već i samu infrastrukturu.


Dakle, cijeli ovaj razvoj YARN - još jedan pregovarač o resursima - zaista je poput operativnog sustava za velike podatke. A to je velika, velika stvar. Dakle, naučit ćemo kako i to mijenja stvari. Dakle, samo nekoliko dijelova očitih savjeta, budite oprezni da će ugovori ići naprijed, znate, petogodišnji ugovori bit će val, put koji mi se čini. Pod svaku cijenu željet ćete izbjeći zaključavanje. Danas ćemo naučiti o svemu tome.


Dakle, naš prvi govornik analitičar - naš prvi govornik cijelog programa Mike Ferguson, koji se javio iz Velike Britanije. Uz to, dat ću vam ključeve, Mike, i dopustit ću vam da ga odnesete. Mike Ferguson, pod je tvoj.


Mike, jesi li tu? Možda ste isključeni zvuk. Ne čujem ga. Možda ćemo ga morati nazvati. I skočit ćemo pravo na slajdove Robin Bloor. Robin, ovdje ću se svrstati u siromašnog Mikea Fergusona. Idem na sekundu.


Jesi li to ti, Mike? Možete li nas čuti? Ma. Mislim da ćemo prvo morati ići naprijed i ići s Robinom. Pričekajte trenutak, narode. I ovdje ću povući neke veze na slajdove za nekoliko minuta. Pa uz to, dopustite mi da predajem ključeve Robin Bloor. Robin, možeš prvo ići umjesto Mikea, a ja ću nazvati Mikea u sekundi.


Robin: Dobro.


Eric: Čekaj, Rob. Pusti me naprijed i doveži tvoj toranj, Rob. To će potrajati na sekundu


Robin: Dobro.


Eric: Da. Ipak, možete razgovarati o onome čime se mi bavimo, ovdje u pogledu upravljanja. Znam da ćete razgovarati o upravljanju. O tome se obično razmišlja u svezi s malim korporativnim podacima. Dakle, imam jaknu, Robin. Ne miči ništa. I evo ti. Pod je tvoj. Odnesi to.


Robin: Dobro. Da. Mislim, dobro, prije smo se dogovorili, Mike će govoriti o analitičkoj strani, a ja ću govoriti o upravljačkoj strani. U određenoj mjeri, upravljanje slijedi analitiku u smislu da je to razlog zbog kojeg radite velike podatke, a razlog zbog kojeg sastavljate sav softver da biste ga obavili, to je vrijednost.


Postoji problem. A problem je u tome što, znate, podaci moraju biti pomiješani. Podaci se moraju ispraviti. Podaci se moraju objediniti i njima upravljati na način koji omogućuje analitiku da se odvija s potpunim povjerenjem - pretpostavljam, riječ je. Dakle, mislio sam da ću razgovarati o upravljačkoj jednadžbi. Pretpostavljam da je ono što zapravo treba reći da je upravljanje već bilo problem. Upravljanje je već bilo problem i ono počinje postati problem u čitavoj igri skladišta podataka.


Što se zapravo dogodilo to je pretvoreno u mnogo veći problem. I razlog što se pretvorilo u puno veće pitanje kao i više podataka, ali mislim, to su zaista razlozi. Broj izvora podataka drastično se povećao. Prije su nam izvori podataka bili u velikoj mjeri definirani onim što je napajalo skladište podataka. Skladište podataka normalno bi se napajalo RTP sustavima. Moguće je malo vanjskih podataka, a ne mnogo.


Sada smo otišli u svijet u kojem, znate, trenutačno postoji tržište podataka, pa će se zato trgovati podacima. Već imate mnoštvo različitih tokova podataka koje možete stvarno unijeti u organizaciju. Imamo podatke s društvenih medija koji su ih preuzeli, skinuli na svoj račun, tako reći. Mislim, puno toga, vrijednost na web stranicama društvenih medija zapravo su informacije koje oni sakupljaju i stoga ih mogu učiniti dostupnima ljudima.


Također smo dobili otkriće, kao da su već postojali. Znate, već smo imali te datoteke dnevnika u vrijeme pojavljivanja Splunka. I ubrzo je postalo očito da u datoteci zapisa postoji vrijednost. Dakle, unutar organizacije je bilo podataka koji smo mogli nazvati novim izvorima podataka kao i vanjskim izvorima. Dakle, to je jedno. A to doista znači da, znate, koja god pravila upravljanja podacima imali prije, morat će ih se, na ovaj ili onaj način, proširiti i trebat će ih produžavati kako bi zapravo upravljali podaci. Ali sada se počinjemo sastavljati na ovaj ili onaj način.


I silazeći ovaj popis imamo streaming i brzinu dolaska podataka. Jedan od, mislim, razloga za popularnost Hadoopa je taj što se on u velikoj mjeri može upotrijebiti za prikupljanje puno podataka. Također može gutati brzinu podataka, ako vam zapravo ne trebate odmah koristiti, to je lijepo paralelno, ogromno paralelno okruženje. Ali također imate i činjenicu da se sada odvija prilično mnogo analitičke struje. Nekad su to bili bankarski sektori koji su bili zainteresirani za strujanje aplikacija, ali sada su postali globalni. Svi gledaju na strujan način aplikacija na ovaj ili onaj način, što je potencijalno sredstvo za dobivanje vrijednosti iz podataka i provođenje analitike za organizaciju.


Imamo nestrukturirane podatke. Statistički podaci, obično dio samo 10% svjetskih podataka nalazili su se u relacijskim bazama podataka. Sada je jedan od glavnih razloga tome zapravo bio nestrukturiran, i to - dobar dio toga bio je vani na Internetu, ali prilično mnogo informacija o raznim web stranicama. Pokazalo se da su ovi podaci također analizirani, također korisni. A s pojavom Symantec-ove tehnologije koja se postupno uvlači u situaciju, postaje sve više i više.Dakle, treba stvarno prikupiti i upravljati nestrukturiranim podacima, a to znači da su puno veće nego što je to bilo prije. Imamo socijalne podatke koje sam već spomenuo, ali poanta u vezi s tim je da je vjerojatno potrebno čišćenje.


Imamo podatke Interneta stvari. To je vrsta drugačije situacije. Vjerojatno će biti toliko toga, ali puno će morati ostati raspodijeljeno negdje u blizini mjesta na kojem se kreće. Ali to ćete također htjeti, na ovaj ili onaj način, povući da biste uradili analitiku unutar organizacije na podacima. Dakle, to je dodao još jedan čimbenik. I ti će podaci biti strukturirani na drugačiji način, jer će vjerojatno - vjerojatno će biti formatirani u JSON ili XML, tako da se deklarira. I ne samo, na ovaj ili onaj način, što zapravo uvlačimo podatke i možemo napraviti vrstu sheme za čitanje na tom određenom dijelu podataka.


Imamo pitanje porijekla, a ovo je pitanje analitike. Rezultati u bilo kojoj analizi u kojoj radite podatke ne mogu biti - ako želite - odobreni, prihvaćeni kao valjani, osim ako niste poznati izvor podataka. Mislim, to je samo profesionalizam u pogledu aktivnosti znanstvenika podataka. Ali znate, da bismo imali izvor podataka, to znači da mi zapravo moramo upravljati podacima i voditi računa o njegovoj lozi.


Imamo problem snage i paralela računala i svega što brže napreduje. Problem je u tome što su očito da bi neki procesi koje imamo u tijeku mogli biti prespori za sve ostalo. Moguće su neusklađenosti u pogledu brzine.


Došli smo do strojnog učenja. Strojno učenje ima učinak, u stvari, što analitiku čini drugačijom igrom nego što je bila prije. Ali stvarno ga možete koristiti samo ako imate snage.


Dobili smo činjenicu novih analitičkih opterećenja. Imamo paralelni svijet i neki analitički algoritmi se moraju izvesti paralelno za maksimalan učinak. I zbog toga je problem zapravo upravljanje načinom na koji na jedan ili drugi način gurate podatke, izrađujete podatke ako su dostupni. A tamo gdje zapravo izvršavate analitička opterećenja, jer to možete raditi u bazi podataka. Dakle, to možete raditi u analitičkim aplikacijama.


Dakle, postoji čitav niz izazova upravljanja. Ono što smo napravili ove godine - istraživanje koje smo radili ove godine zaista je bilo oko velike podatkovne arhitekture. A kad to zapravo pokušavamo generalizirati, zaključak do kojeg smo došli - dijagram do kojeg smo došli izgledao je otprilike ovako.


Neću se baviti time, pogotovo jer će Mike uložiti priličnu količinu podataka u arhitekturu za analitiku. Ali ono što zapravo volim da se ljudi samo usredotoče je ovo dno područja na kojem mi, na ovaj ili onaj način, skupljamo podatke. Želio bih se osvrnuti na rafineriju podataka ili sastajalište podataka za obradu. I to je mjesto gdje se odvija upravljanje. Pa, znate, ako se mi nekako fokusiramo, to izgleda tako. Znate, to se hrani podacima iz unutarnjih i vanjskih izvora. Teoretski bi centar trebao uzeti sve podatke koji se generiraju. Ako trebate vršiti analitiku i strujanje podataka, trebali biste strujati i upravljati onako kako struji, a zatim ih proslijediti na čvorište. Ili inače, sve to dolazi u središte. A tu se događa i niz stvari - koje se događaju u središtu I ne možete imati određenu količinu analitike i SQL-a koji se odvijaju u središtu. Ali također imate potrebu za virtualizacijom podataka u svakoj ćeliji kako biste podatke prebacili u druga područja. No prije nego što se išta od toga dogodi, zapravo morate na ovaj ili onaj način pročistiti pripremu podataka. Možete to nazvati pripremom podataka. To je puno veće od toga. Mislim da to uključuju stvari.


U upravljanju sustavom i upravljanjem uslugama, u izvjesnom smislu, to je glavni dio podatkovnog sloja, tada zapravo moramo primijeniti sve sustave koji upravljaju naporima upravljanja operativnim sustavom, što smo tradicionalno činili na gotovo svim operativnim sustavima. Ali također trebamo, na ovaj ili onaj način, nadzirati druge stvari koje se događaju kako bismo osigurali da se postižu ove različite razine usluga, jer moraju biti definirane razine usluge ili bilo koje vrste analitike kako se djeluje, ili BI podaci se djelovalo.


Trebamo nadzor nad radom i upravljanje. Ako ništa drugo, potrebno nam je to da bismo znali koje daljnje računalne resurse trebamo izdvojiti u različitim trenucima. Ali isto tako, ogromno je opterećenje u stvari zapravo prilično složeno i međusobno se natječu za resurse. Na tom se području mora učiniti nešto vrlo sofisticirano.


Sada imamo životni ciklus podataka na način na koji ga nikada prije nismo imali. Dogovor je ovdje iznad i izvan svega drugog, što prije nismo prikupljali podatke i bacali ih. Skloni smo prikupljanju podataka koji su nam potrebni i vjerojatno smo ih čuvali, a zatim ih arhiviramo. Ali strašno puno onoga što ćemo raditi odavde je istraživanje podataka. A ako ne želite podatke, sahranite ih. Dakle, životni ciklusi podataka su različita stvar, ovisno o situaciji, ali bit će i puno više združivanja podataka. Dakle, znate, odakle dolazi agregat od onoga što je ... koji je izvor združivanja, i tako dalje, i tako dalje. To je sve potrebno.


Podatkovna linija naravno posuđuje. Bez njega morate znati probleme, pa podaci ... Moramo znati da su podaci valjani, ali s obzirom na to koliko su zapravo pouzdani.


Dobili smo i mapiranje podataka jer će zapravo na jedan ili drugi način biti puno podataka. Ovo se, ako želite, odnosi na određenu mjeru u MDM-u. Jednostavno je to sada mnogo složenije, jer kad dobijete grozno puno podataka definiranih JSON-om ili na temelju naše XML sheme na čitanju, morat ćete, na ovaj ili onaj način, vrlo aktivno aktivnosti mapiranja podataka se odvijaju.


Postoji situacija upravljanja metapodacima koja je i više od MDM-a, jer postoji potreba, na ovaj ili onaj način, da se izgradi ono što bih sada želio misliti kao svojevrsno skladište metapodataka svega što vas zanima. Postoje metapodaci otkriće, jer neki podaci neće nužno deklarirati metapodatke i želimo ih odmah upotrijebiti. A onda slijedi čišćenje podataka, što je ogromna stvar u odnosu na niz stvari koje čovjek tamo može učiniti. A tu je i sigurnost podataka. Svi ovi podaci moraju biti osigurani na prihvatljivu razinu, a to bi moglo značiti i u određenim slučajevima - na primjer, šifriranje velikog broja vrijednosti.


Dakle, sve to opterećenje zapravo je carstvo upravljanja. Sve ovo, na ovaj ili onaj način, mora se odvijati u isto vrijeme ili prije, sve naše analitičke aktivnosti. Ovo je veliki broj koordiniranih aplikacija. To je sam sustav. A onda, oni koji to ne učine u raznim trenucima, trpjet će ga iz nedostatka dok idu naprijed, jer grozno mnogo toga nije stvarno neobavezno. Završavate s povećanjem entropije ako ih ne učinite.


Dakle, u pogledu analitike podataka i upravljanja, ono što bih rekao je da, uistinu, jedna ruka pere drugu. Bez upravljanja, analitika i BI neće propasti na vrijeme. A bez analitike i BI-a, svejedno ne bi bilo puno potrebe za upravljanjem podacima. Dvije stvari zaista idu ruku pod ruku. Kako kažu na Bliskom Istoku, "jedna ruka pere drugu". I to je zapravo sve što moram reći. Nadam se - nadamo se da smo sad dobili Mikea.


Eric: Jesmo. Mike, pretpostavljam da si tamo. Gurnut ću tvoj slajd prema gore.


Mike: Jesam. Ok, čujete li me?


Eric: Da, čujem te. Zvučiš divno. Dakle, dopustite da vam predstavim ... Evo. A vi ste sada voditeljica. Odnesi to.


Mike: U redu, hvala! Dobro jutro, dobar dan, dobro veče svima vama vani. Oprosti štucanje na početku. Iz nekog razloga sam se isključio i mogu vidjeti sve, ali nisu me mogli čuti.


U redu. Dakle, ono što želim brzo učiniti je razgovor o, znate, velikom analitičkom ekosustavu podataka. Ako mi želite postaviti pitanja, reći ću, na ovoj sesiji ili kasnije, možete me dobiti u vezi s mojim kontaktnim podacima ovdje. Kao što rekoh, usred noći ovdje u Velikoj Britaniji.


Pa, dopustite da dođem do onoga o čemu želim razgovarati. Jasno je da smo u posljednjih nekoliko godina vidjeli pojavu svih vrsta novih podataka o podacima koje tvrtke sada žele analizirati - sve od klikovnih podataka do razumijevanja internetskog ponašanja, podataka na društvenim mrežama o kojima je Eric govorio na početak programa ovdje. Mislim da je Robin spomenuo JSON, BSON, XML - dakle, polustrukturirane podatke koji se samoopisuju. Naravno, imamo i čitavu tonu ostalih stvari - sve od nestrukturiranih podataka, evidencije IT infrastrukture, podataka senzora. Svi ovi relativno novi izvori podataka za koje su se tvrtke sada zainteresirale jer sadrže vrijedan uvid koji bi mogao produbiti ono što znamo.


Dakle, to u osnovi znači da je analitički krajolik nadišao tradicionalno skladištenje podataka. Mi i dalje strukturiramo podatke u svijet kombinacije strukturiranih i multistrukturiranih podataka, gdje bi višestruki strukturirani podaci mogli doći u većini slučajeva iznutra ili izvana poduzeća. Kao rezultat ovih novih tipova podataka i novih potreba za analizom, vidjeli smo pojavu novih analitičkih radnih opterećenja - sve od analiziranja podataka u pokretu, što na neki način okreće tradicionalnu arhitekturu skladištenja podataka, negdje tamo gdje , u tradicionalnim krugovima integrirajte podatke, očistili ih, transformirali, pohranili i analizirali. Ali analizirajući podatke u pokretu, podatke uhvaćamo, integriramo ih, pripremamo ih kroz analizu i pohranjivanje. Analiza podataka događa se prije nego što se bilo gdje pohrani.


Složena analiza strukturiranih podataka, možda za razvoj modela, razvoj statističkih i prediktivnih modela, za neke ljude nije ništa novo u tradicionalnom prostoru za pohranu podataka. Imamo istraživačku analizu podataka na modelu. To je količina strukturiranih podataka tamo. Imamo nova radna opterećenja u obliku analize grafikona koja za moje klijente u financijskim uslugama uključuje stvari poput prijevara. Također uključuje cyber sigurnost. Uključuje društvene mreže, naravno razumijevanje utjecaja i sličnih stvari tamo. Čak sam to savladao u menadžmentu, ima nekoliko godina analize grafova.


Imamo optimizaciju skladišta podataka ili prebacivanje ETL obrade, što je više vrsta IT upotrebe, a CIO bi to mogao financirati. Čak čak i arhiviranje podataka i skladišta podataka kako bi se održavali na mreži u stvarima poput Hadoopa. Dakle, sva ova nova analitička opterećenja dodaju nove platforme, nove platforme za pohranu u analitički krajolik. Dakle, umjesto da imamo tradicionalna skladišta podataka, podatkovne baze, Hadoop je sada dostupan. Imamo NoSQL baze podataka poput grafičkih baza podataka koje se često koriste za analitičko opterećenje. Naravno, sada možemo napraviti analizu grafova na samom Hadoopu, kao i u DBMS-ovima s NoSQL grafom. Imamo analitičku struju koju je Robin spomenuo. A mi imamo - ako želite - izradu modela, možda i na analitičkim uređajima za skladištenje podataka. Ali sve je to kompliciralo analitički krajolik, sada je potrebno više platformi. I pretpostavljam da je izazov za bilo koji posao s kućnim uredom ili stražnjim uredom, ili financije, nabave, kadrovske i neke vrste operacija, otkriti koji su analitički projekti povezani s tradicionalnom scenom čuvanja podataka. A nakon što znate da su analitički projekti povezani s tim novim velikim platformama podataka i gdje se pokrenuti, znate koje analitičko radno opterećenje, ali da ne izgubite iz vida posao u smislu da je to - vidjet ćete sada da je to kombinacija velikog analitički projekti podataka i tradicionalni projekti skladištenja velikih podataka koji su zajedno potrebni kako bi se ojačalo oko kupca ili oko operacija, oko rizika, financija ili održivosti. I zato želimo da sve to bude usklađeno s našim strateškim poslovnim prioritetima, da ostanemo na putu da, znate, gurnemo igle koje treba gurnuti unutra, znate, kako bi poboljšali poslovne rezultate, smanjili troškove, smanjiti rizike itd. za našu kompaniju u cjelini. Dakle, nije da ovdje jedan zamjenjuje drugi velikim podacima i tradicionalnim. Oboje se koriste zajedno. A to drastično mijenja arhitekturu, znate.


Dakle, ovdje imam relativno novu arhitekturu koju ću koristiti sa svojim klijentima. I tako, kao što vidite sada uz dno, ogroman je niz izvora podataka, koji nisu više samo strukturirani. Neki od njih prenose podatke uživo poput senzora, poput podataka na tržištu, takve stvari. To bi mogli biti čak i live streamstream podaci. To bi mogli biti live streaming podataka. Dakle, to nije trebalo strukturirati. Dakle, mi možemo raditi strujnu obradu tih podataka radi automatske radnje u stvarnom vremenu, a bilo koji zanimljivi podaci mogu se filtrirati i proslijediti u alate za upravljanje informacijama u poduzeću koji se mogu koristiti za punjenje analitičkih spremišta podataka. Ako ih ne možete vidjeti ovdje, sada imamo tradicionalno skladištenje podataka, Hadoop i NoSQL baze podataka. Imamo i upravljanje glavnim podacima u miksu. A to vrši veći pritisak na čitav paket alata za upravljanje podacima, ne samo da se popune ti podaci, već da se premještaju podaci među njima.


Povrh toga, moramo pojednostaviti alate za pristup. Ne možemo se samo obratiti korisniku i reći, "nabavite sve te trgovine podataka, držite ove API-je - vaš problem." Ono što morate učiniti je pojednostaviti pristup. I tako, vrste tamo gdje su isprekidane crte, vidjet ćete da virtualizacija podataka i optimizacija nekako skrivaju složenost višestruke pohrane podataka, pokušajte krajnjim korisnicima olakšati pristup tome. I naravno, na vrhu se nalazi niz alata, sve - od tradicionalnih BI alata koji su se nekako pokrenuli pri vrhu skladištenja podataka, postupno se krećući s lijeve strane karte kako bi se nekako povezali u Hadoops a zatim i svjetske baze podataka NoSQL.


Tražili smo traženje novog najma za život, posebno oko nestrukturiranih podataka o tijelu koji se često pohranjuju u Hadoopu. Imamo prilagođene analitičke aplikacije koje treba raditi na Hadoop platformi s MapReduceom, na primjer, Spark frame, na primjer. Imamo alate za analizu grafova da se tamo usredotočimo na vrlo specifična opterećenja. Dakle, niz alata i protok podataka su također složeniji. Više nije samo jednosmjerna ulica u skladištu podataka. Sad su, naravno, glavni podaci.


Dolaze nam novi izvori podataka, bilo da smo zarobljeni u NoSQL-u, znate, prodavaonice podataka poput MongoDB, poput Cassandra, poput HBase. Imamo podatke koji se tamo donose izravno u Hadoop radi analize i pripreme podataka. Imamo nove uvide koji dolaze iz Hadoopa i skladišta podataka. Imamo arhivu koja izlazi iz skladišta podataka u Hadoop. Sad imamo i feedove podataka koji će ići, znate, u sve NoSQL baze podataka i podatkovne martove. Dakle, ono što ovdje možete vidjeti postoji mnogo više aktivnosti u upravljanju podacima. A to znači da pod velikim pritiskom postavlja softver za upravljanje podacima. Više nije samo jednosmjerna ulica. To je dvosmjerno kretanje podataka. U tijeku je mnogo više aktivnosti i zato je skalabilnost važna na prednjoj strani alata za upravljanje podacima kao i na izvoru podataka.


Dakle, ovaj se grafikon vraća u onu arhitekturu koju sam maloprije spomenuo. Pokazuje vam različita analitička opterećenja u različitim dijelovima ove arhitekture. Pored toga na dnu lijevo, u tijeku je prenošenje struje u stvarnom vremenu i obrada strujanja podataka koji dolaze iz, znate, bilo koje vrste podataka uživo. Imamo analizu klasa u bazama podataka NoSQL grafova. Može se dogoditi i na Hadoopu. Na primjer, sa Spark okvirom i GraphX-om, imamo istražnu analizu i rafineriju podataka o kojoj je Robin govorio da se događa na Hadoopu. Imamo tradicionalno radno opterećenje i skladištenje podataka, znate, korisnici energije grade statističke i prediktivne modele, možda na uređajima za skladištenje podataka. I još uvijek pokušavamo pojednostaviti pristup svemu tome kako bismo olakšali krajnjim korisnicima.


Dakle, uspjeh oko čitavog ovog postava je više od analitičke strane. Znate, možemo postaviti analitičke platforme, ali ako ne možemo uhvatiti i gutati podatke, podatke o brzini i velikoj količini, na ljestvici, nema puno smisla. Znate, nemam što analizirati. Dakle, za uspjeh analitike velikih podataka potrebno je povećati operativne sustave. To znači, biti u mogućnosti podržati nove transakcije, znate, vrhunac. Znate, bilo koji ne-transakcijski podaci koji se tamo zarobljavaju mogu biti, znate, bilo koje nove stope dolaska vrlo, vrlo visoke stope dolaska na podatke o velikim brzinama poput senzora ili bilo kojeg gutanja. Moramo biti sposobni voditi računa o svemu tome - moći ćemo uhvatiti takve podatke i unijeti ih na analizu. Moramo i sami prilagoditi analizu, pojednostaviti pristup podacima koje sam već spomenuo. A onda, svezati to. Znate, moramo biti u mogućnosti izvršiti pročišćavanje unatrag u tim operativnim sustavima da bismo mu dali zatvorenu petlju.


Dakle, skaliranje operativne strane kuće za prikupljanje podataka, znate, preuzima u svijet NoSQL baze podataka. Mislim, ovdje vidite pet kategorija NoSQL baze podataka. Ova kategorija će se modelirati samo kombinacijom ostalih četiri gore. Znaš, općenito, njegove ključne vrijednosti, pohranjeni dokumenti i baze podataka obiteljskih stupaca - prve tri tamo - koje se koriste za više vrsta transakcijskih i netraksacijskih podataka.


Neke od tih baza podataka koje podržavaju kao svojstva; neki ne. Ali unatoč tome, znate, vidimo ih uvođenjem razmjera takvih aplikacija. I tako, na primjer, kako smo se odmakli od samo zaposlenih koji unose transakcije na klavijaturama, sadašnjih kupaca i mase koristeći nove uređaje da bismo to mogli učiniti. Primjetili smo ogroman porast broja transakcija koje se unose u poduzeća. I tako, moramo to skalirati transakcijske aplikacije da bismo to postigli.


To se općenito može reći na bazama podataka NewSQL kao relacijske baze podataka poput NuoDB i VoltDB koje su ovdje prikazane. Ili neke od NoSQL baza podataka koje možda podržavaju ACID svojstva koja mogu jamčiti obradu transakcija. To se također odnosi i na netraksacijske podatke, poput podataka o košaricama prije transakcije, znate, prije nego što ljudi kupuju stvari, podatke senzora, znate, jer gubim očitavanje senzora među stotinama milijuna očitavanja senzora. Nije velika stvar. Klikovi znate u svijetu klika - ako upotrebim klik, to nije velika stvar.Dakle, znate, ne moramo nužno imati ACID svojstva ondje, i tu se često igraju NoSQL baze podataka, to je bila mogućnost da se izvrši vrlo visoka i ispravna obrada u mjerilu kako bi se snimile ove nove vrste podataka.


U isto vrijeme želimo da analitika poveća. Dakle, povlačenje podataka iz spremišta podataka na analitičke platforme više ih neće hakirati, jer su podaci preveliki. Ono što stvarno želimo je potisnuti analitiku na drugi način, dolje u skladište podataka poduzeća u Hadoop, u strujnu obradu kako bismo mogli potisnuti analitiku na podatke. Međutim, samo zato što netko kaže da se radi o analizi podataka baze podataka ili Hadoop analizi ne mora nužno značiti i paralelnu analizu. Iskreno, ako želite uložiti u ove nove masovno paralelne skalabilne tehnologije poput Hadoopa, poput uređaja za skladištenje podataka i slično, poput motora s klasterima za obradu tokova, potrebna nam je analitika paralelno.


To je samo ček. Znate, ako imamo analitiku koja će vam pomoći da predvidimo stvari kupcima, operacijama, riziku itd., Želimo da se pokreću paralelno, a ne samo da rade na platformi. Želimo oboje. To je zato što, znate, tehnologija je slična ovim novim alatima za vizualno otkrivanje poput SAS-a. To je zapravo jedan od naših sponzora.


Ono što ljudi žele je barem iskorištavanje onih u Hadoopu, a zatim analizu baza podataka. I želimo da se oni pokreću paralelno kako bi mogli pružiti performanse potrebne za tako velike količine podataka. U isto vrijeme pokušavamo pojednostaviti pristup svemu ovome. I tako, SQL je sada na dnevnom redu. Znate, SQL je - SQL na Hadoopu trenutno je vruć. Upravo ga pratim u 19 SQL i Hadoop inicijativama. Uz to, možete vidjeti, do tih podataka možemo doći na brojne načine, tako da direktno pristupom SQL-u na Hadoopu možemo ići SQL-om do indeksa pretraživanja. Na takav način, kao što su, znate, neki od dobavljača pretraživanja na tom prostoru, možemo imati SQL pristup analitičkim relacijskim bazama podataka koji imaju Excelove tablice do Hadoopa.


Sada možemo imati SQL pristup poslužitelju za virtualizaciju podataka koji se sam tada može povezati s skladištem podataka na Hadoopu. Čak sada počinjem vidjeti pojavu SQL pristupa live streaming podacima. Dakle, SQL pristup svemu tome brzo raste. A dio izazova je upravo zato što se vani plasira SQL pristup. Pitanje je, može li se SQL baviti složenim podacima? A to nije nužno jednostavno. Ovdje postoje sve vrste komplikacija, uključujući činjenicu da bi se JSON podaci mogli ugniježditi. Možemo imati zapise varijante shema. Dakle, prvi zapis ima jednu shemu. Drugi zapis ima drugačiju shemu. Te su stvari vrlo različite od onoga što se događa u relacijskom svijetu.


Dakle, moramo postaviti pitanja o tome koje vrste podataka pokušavamo analizirati i koje su vrste analitičkih karakteristika. Je li, znate, ploča koju želite raditi? Je li to strojno učenje? Je li to analiza grafova? Možete li to učiniti iz SQL-a? Znate, je li to SQL pozvan? Koliko istodobnih korisnika to radimo? Znate, imamo stotine istodobnih korisnika. Je li to moguće na složenim podacima? Znate, sve su to ključna pitanja. Dakle, nekako sam napravio spisak nekoliko ovdje za koje mislim da biste trebali uzeti u obzir. Znate, kakvi su formati datoteka? O kakvim vrstama podataka govorimo? Kakve se analitičke funkcije možemo pozvati iz SQL-a da bismo dobili složene podatke? I vrsta funkcija odvija se paralelno. Mislim, moraju paralelno trčati ako moramo to moći skalirati. I mogu li se danas pridružiti podacima u Hadoopu izvan njega, znate, ili to nije izvedivo? I što ću s svim tim različitim vrstama upita?


I kao što ćemo vidjeti, znate da, od onoga što sam vidio, postoje velike razlike u SQL i Hadoop distribuciji. To su sve koje pratim. Usput, to je čisti SQL na Hadoopu. To čak ne uključuje virtualizaciju podataka. I tako, puno vani i puno prostora za konsolidaciju, što mislim da će se dogoditi tijekom sljedeće godine, osamnaest mjeseci ili tako nešto. Ali to također otvara još jednu stvar, a to je da mogu imati višestruke SQL motore na istim podacima u Hadoopu. I to je nešto što ne bi mogli raditi u relacijskim odnosima.


Naravno, to znači da tada morate znati, znate, kakvo radno opterećenje upita pokrećem? Trebam li to pokrenuti skupa na određenoj SQL inicijativi za Hadoop? Trebam li pokrenuti radna opterećenja interaktivnih upita putem drugog SQL-a o Hadoop inicijativi itd., Tako da znam s kim se treba povezati? U idealnom slučaju, naravno, to ne bismo smjeli raditi. Trebali smo samo postaviti pitanje. Znate, neki optimizator pronalazi najbolji način da to postignu. Ali prema mom mišljenju još nismo u potpunosti.


No svejedno, virtualizacija podataka, koju sam ranije spomenuo, ima vrlo važnu ulogu za pojednostavljivanje pristupa višestrukim spremištima podataka. A ako stvorimo nove uvide o Hadoopu, zasigurno nam je vjerovatno da se pridružimo tim podacima i tradicionalnim skladištima podataka putem virtualizacije podataka, na primjer, bez nužnog premještanja podataka iz Hadoopa u tradicionalna skladišta podataka. Naravno, i vi to možete učiniti. To je također vjerovatno ako u Hadoop arhiviram podatke iz tradicionalnih skladišta podataka. Još uvijek ga mogu pronaći i pridružiti se stvarima koje su u našem skladištu podataka za virtualizaciju podataka. Dakle, po meni, mislim da je virtualizacija podataka dobila veliku budućnost u cjelokupnoj arhitekturi i pojednostavio pristup svim tim spremištima podataka.


I da ne zaboravimo da prilikom stvaranja ovih novih uvida, bilo da se radi o relacijskim ili NoSQL sustavima, i dalje želimo vratiti te uvide u naše operacije, kako bismo maksimizirali vrijednost onoga što smo pronašli, kako bismo mogli iskoristiti to za učinkovitije, pravovremenije odluke u tom okruženju za optimiziranje našeg poslovanja.


Dakle, da bismo zaključili, ono što vidim onda su nam potrebni, znate, novi izvori podataka. Imamo nove platforme složenije arhitekture, ako želite, to rješavati. A Hadoop postaje vrlo, vrlo važan, dovoljan za pripremu podataka za naše tekuće sandučiće, za arhivske upite, arhivu iz skladišta podataka, za upravljanje podacima koja širi krila da nadiđe skladištenje podataka u upravljanje podacima na svim tim platformama i nove alate koji će biti u mogućnosti analizirati i pristupati podacima u tim okruženjima, imati mogućnost skalabilnih tehnologija za bolje unošenje podataka i skaliranje analitike gurajući ih dolje na platforme kako bi ih učinili više paralelnim. A zatim, nadamo se, i da se pojednostavi pristup svemu kroz novi SQL koji dolazi preko vrha. Dakle, daje vam ideju kuda smo krenuli. Pa, s tim, vratit ću se, valjda, Ericu, zar ne?


Eric: U redu, to je fantastično. A ljudi, moram reći, između onoga što ste upravo dobili od Robina i Mikea, vjerojatno se radi o tako sveobuhvatnom i sažetom pregledu cjelokupnog krajolika, sa gledanja kao što ćete ga pronaći bilo gdje. Pustite me da najprije krenem redom prema Georgeu Corugedu. I tu je. Dopustite mi da kratko uzmem. U redu, George, upravo ću ti predati ključeve i odnijeti ih. Pod je tvoj.


George: Sjajno! Puno hvala, Eric, i hvala, Rob i Mike. To su bile sjajne informacije i puno toga što se slažemo. Dakle, povratak na Robinovu raspravu, jer, znate, to nije slučajnost da je RedPoint ovdje, a SAS ovdje. Budući da se RedPoint fokusira na njegovu podatkovnu stranu na upravljanju, obradi podataka i pripremi za upotrebu u analitikama. Dakle, dopustite mi da prođem kroz ta dva slajda. I stvarno razgovarajte o Robinnovom stajalištu o MDM-u i o tome koliko je on važan i koliko je koristan, mislim - i mislimo - Hadoop može biti u svijetu MDM-a i kvalitete podataka.


Znate, Robin je malo pričao, znate, kako je to povezano sa svijetom skladišta podataka poduzeća, a ja dolazim - znate, proveo sam nekoliko godina na Accentureu. Ono što je tamo bilo zanimljivo jest koliko smo puta morali ući u tvrtke i pokušati shvatiti što učiniti s skladištem podataka koja je u osnovi napuštena. A puno toga se dogodilo jer tim skladišta podataka nije zapravo uskladio svoj posao s poslovnim korisnicima niti s potrošačima podataka. Ili je to trajalo toliko dugo da su se, kad su stvar izradili, razvila poslovna upotreba ili poslovno obrazloženje za to.


A jedna od stvari za koju mislim da me toliko oduševljava ideja o korištenju Hadoopa za glavno upravljanje podacima, za kvalitetu podataka i za pripremu podataka je činjenica da se uvijek možete vratiti atomskim podacima u Hadoop jezero podataka ili rezervoar podataka, skladište podataka ili sastajalište, ili bilo koji oblik zvuka koji želite koristiti. Ali budući da te atomske podatke uvijek čuvate, tada uvijek imate priliku uskladiti se s poslovnim korisnicima. Jer, kao analitičar - jer zapravo sam započeo karijeru statističara - znate, ništa nije gore od, znate, skladišta podataka o poduzećima su divna za pokretanje izvještaja, ali ako želite raditi stvarno prediktivnu analitiku, oni zapravo i nisu tako korisni, jer ono što stvarno želite su detaljni podaci o ponašanju koji su nekako sažeti i objedinjeni u skladištu podataka. Dakle, mislim da je to zaista važna značajka, i to je jedna stvar oko koje mislim da se ne bih mogao složiti s Robinom u tome što bih osobno ostavljao podatke u jezeru podataka ili središtu podataka što je duže moguće, jer sve dok podaci su tu i čisti su, možete je pogledati iz jednog smjera, u drugog. Možete ga spojiti s drugim podacima. Uvijek imate tu priliku da joj se vratite i restrukturirate, a zatim se uskladite s poslovnom jedinicom i potrebom koje ova jedinica može imati.


Jedna od drugih vrsta zanimljivosti u vezi s tim je da, zato što je ovo tako moćna računalna platforma, puno tog posla o kojem smo razgovarali, vidimo da sve dolazi ravno u Hadoop. I dok je, mislim, Mike govorio o svim različitim tehnologijama koje postoje vani u svijetu - u ovom tipu ekosustava velikih podataka, mi mislimo da je Hadoop zaista radni konj koji radi velike razmjere u računalno intenzivnoj obradi koja zahtijevaju matični podaci i kvaliteta podataka. Jer, ako to možete učiniti tamo, znate, upravo čista ekonomija premještanja podataka iz vaših skupih baza podataka u ekonomične baze podataka, to doista sada utječe na toliko velike količine iskorištenosti u velikim poduzećima.


Sada, naravno, postoje neki izazovi, zar ne? Oko tehnologija postoje izazovi. Mnogo ih je jako nezrelih. Rekao bih, ne znam koliko, ali brojne tehnologije koje je Mike spomenuo još uvijek su u izdanjima nulte točke, nešto, zar ne? Dakle, ove su tehnologije vrlo mlade, vrlo nezrele, još uvijek temeljene na kodu. A to zaista stvara izazov za poduzeća. I stvarno se fokusiramo na rješavanje problema na razini poduzeća. I tako, mi mislimo da mora postojati drugačiji način, a to je ono što predlažemo da je različit način korištenja nekih od ovih vrlo novih tehnologija.


I tako, i onda je ovdje zanimljivo pitanje koje smo prethodno spomenuli, a to je da kada imate podatke koje bilježite u Hadoop okruženju bilo koje vrste, znate, obično je to shema čitanja, a ne shema pri pisanju s nekim iznimkama. A to čitanje, puno toga rade statističari. I tako, statističari moraju imati alate koji im omogućuju da pravilno strukturiraju podatke u analitičke svrhe, jer na kraju dana, da bi podaci bili korisni, moraju biti strukturirani u nekom obliku kako bi ih vidjeli ili odgovorili na pitanje ili posao, neka vrsta posla, stvara poslovnu vrijednost.


Dakle, tamo gdje smo ušli je da imamo vrlo široko utemeljen i zreo EPL, ELT master key kvalitete podataka i aplikaciju za upravljanje. Na tržištu je već mnogo, mnogo godina. A on ima svu funkcionalnost ili većinu funkcionalnosti koje je Robin navedio u tom kružnom grafikonu - sve od samo čistog neobrađenog hvatanja podataka u čitavom nizu formata i XML struktura i sličnih, do mogućnosti da se uradi cijelo čišćenje, popunjavanje podataka, ispravljanje podataka, bitovi geoprostornih jezgara podataka. To je nešto što postaje sve važnije ovih dana s Internetom stvari. Znate, zemljopis je povezan s većinom onoga što radimo ili s velikim dijelom tih podataka. I tako, sve analize, tokenizacija, čišćenje, ispravljanje, oblikovanje, strukturiranje itd., Sve se to radi na našoj platformi.


A onda, i možda mi mislimo da je najvažnija ideja o deduplikaciji. Znate, u srži je, ako pogledate bilo koju definiciju glavnog upravljanja podacima, njegova srž je deduplikacija. Moći će prepoznati subjekte iz različitih izvora podataka, a zatim stvoriti matični zapis za taj entitet. A taj bi entitet mogao biti osoba. Entitet bi mogao biti dio zrakoplova, na primjer. Entitet bi mogao biti hrana kao što smo učinili za jednog od naših klijenata zdravstvenog kluba. Za njih smo napravili glavnu bazu podataka o hrani. Dakle, bez obzira na entitete s kojima radimo - i naravno, sve češće, postoje ljudi i posrednici za njihov identitet koji su stvari poput društvenih kvadrata ili računa, bez obzira na uređaje koji su povezani s ljudima, neke stvari poput automobila i telefoni i sve ostalo što možete zamisliti.


Znate, surađujemo s klijentom koji stavlja sve vrste senzora u sportsku odjeću. Dakle, podaci dolaze iz svih smjerova. I na ovaj ili onaj način to je odraz ili predstavljanje temeljne cjeline. I sve više, to su ljudi i sposobnost prepoznavanja odnosa između svih tih izvora podataka i kako se oni povezuju s tom osnovnom jedinicom, a zatim kako biste mogli pratiti taj temeljni entitet tijekom vremena, tako da možete analizirati i razumjeti promjene između tog entiteta i svih onih ostalih elemenata koji su predstavljeni u tom entitetu, na primjer, od presudnog značaja za dugoročnu i longitudinalnu analizu ljudi. I to je zaista jedna od zaista važnih prednosti koje, mislim, veliki podaci mogu nam donijeti puno bolje razumijevanje ljudi, i dugoročno, razumijevanje kon i kako se ljudi ponašaju kada se ponašaju kroz koje uređaje itd. ,


Dakle, dopustite da se brzo preselim ovdje. Eric je spomenuo YARN. Znate, kažem ovo na samo nekoliko sekundi, jer dok PREŽETE - ljudi pričaju o PRIJAVI. Mislim da još uvijek postoji puno neznanja o YARN-u. A ne baš puno ljudi - još uvijek postoji puno nesporazuma u vezi s PRAROM. A činjenica je da ako je vaša aplikacija dizajnirana na pravilan način, a vi imate odgovarajuću razinu ili paralelizaciju u vašoj arhitekturi aplikacija, tada možete iskoristiti YARN da biste Hadoop koristili kao platformu za skaliranje. I to je upravo ono što smo napravili.


Znate, opet, samo da ukažem na neke definicije oko pređe. Za nas je stvarno ono što YARN omogućuje sebi i drugim organizacijama da postanemo vršnjaci MapReduce i Spark i svih ostalih alata koji su vani. Ali činjenica je da naše aplikacije dovode optimizirani kôd izravno u YARN u Hadoop. I postoji zaista zanimljiv komentar koji je Mike spomenuo, jer, znate, pitanje o analitikama i našoj analitici, samo zato što su u klasteru, stvarno rade paralelno? Isto pitanje možete postaviti o mnogim alatima za kvalitetu podataka koji su vani.


Većinu dana alati za kvalitetu koji su vani ili moraju izvaditi podatke ili guraju kod. U većini slučajeva to je jedan tok podataka koji se obrađuje zbog načina na koji morate usporedite zapise, ponekad u vrstama kakvoće podataka. A činjenica je da smo, budući da koristimo YARN, zaista uspjeli iskoristiti paralelizaciju.


I samo da vam brzo pružim pregled, jer se daje još jedan komentar o važnosti mogućnosti proširenja tradicionalnih baza podataka, novih baza podataka itd., Implementiramo ili instaliramo izvan klastera. A mi gurnemo svoje binarne datoteke izravno u upravitelja resursa, NIKAD. I to, i onda ga YARN distribuira po čvorovima u klasteru. A ono što se događa jest da PRIJAVA - dopuštamo YARN-u da upravlja i radi svoj posao, a to je da shvati gdje su podaci i preuzme posao na podatke, kod na podatke, a ne da se pomičemo. Kad čujete alate za kvalitetu podataka i govore vam da je najbolja praksa da se podaci premjeste s Hadoopa, trčite za svojim životom, jer to jednostavno nije tako. Rad želite prenijeti na podatke. I to je ono što YARN prvo radi. Odvodi naše binarne zapise do čvorova u kojima se podaci nalaze.


A također zato što smo izvan klastera, možemo pristupiti i svim tradicionalnim i relacijskim bazama podataka, tako da možemo imati poslove koji su 100% klijentski poslužitelj na tradicionalnoj bazi podataka, 100% Hadoop ili hibridni poslovi koji idu preko poslužitelja Hadoop klijenta. , Oracle, Teradata - što god želite i svi u istom poslu, jer jedna implementacija može pristupiti objema stranama svijeta.


A onda, vrativši se na cjelokupnu ideju o izvornosti alata, ovdje vidite, ovo je samo jednostavan prikaz. I ono što mi pokušavamo učiniti je pojednostaviti svijet. A način na koji to radimo je donošenje vrlo širokog niza funkcionalnosti oko HDFS-a kako bi ga napravili ... I to nije zato što pokušavamo eliminirati sve inovativne tehnologije vani. Samo je poduzećima potrebna stabilnost i ne vole rješenja temeljena na kodima. I tako, ono što pokušavamo učiniti je dati poduzećima poznato, ponovljivo i dosljedno okruženje aplikacija koje im omogućuje izgradnju i obradu podataka na vrlo predvidljiv način.


Brzo, to je takav utjecaj koji dobivamo našom primjenom. Vidite MapReduce vs. Pig vs. RedPoint - u RedPointu nema linija koda. Šest sati razvoja na MapReduceu, tri sata razvoja u Svinji i 15 minuta razvoja u RedPointu. I tu imamo zaista ogroman utjecaj. Vrijeme obrade je također brže, ali vrijeme ljudi, produktivnost ljudi, znatno se povećava.


I moj posljednji dio, želim se vratiti ovoj ideji, jer ovo je naše korištenje jezera podataka ili čvorišta podataka ili rafinerija podataka kao središnja točka gutanja. Ne mogu se više složiti s tom idejom. I trenutno razgovaramo s puno glavnih službenika za podatke velikih svjetskih banaka i ovo je arhitektura izbora.Unos podataka iz svih izvora vrši procesiranje kvalitete podataka i upravljanje njima u unutrašnjosti podatkovnog jezera, a zatim gurajte podatke tamo gdje je potrebno da biste podržali aplikacije, podržali BI, što god to moglo biti. A onda, ako imate analitičke podatke u BI-u, oni se mogu pokrenuti izravno u jezeru podataka, a sve je bolje, što može početi odmah. Ali vrlo smo korisni s ovom idejom. Ova je topologija ovdje - što smo pronašli, dobila mnogo privlačenja na tržištu. I to je to.


Eric: Dobro, dobro. Krenimo ovdje. Ja ću naprijed i predati ga Keithu. I, Keith, imaš oko 10, 12 minuta da se ovdje razbaci kuća. Trebali smo malo potrajati u ovim emisijama. A mi smo za ovu reklamirali 70 minuta. Dakle, samo naprijed i kliknite bilo gdje na tom klizaču i upotrijebite strelicu prema dolje i odnesite je.


Keith: Svakako. Nema problema, Eric. Cijenim to. Idem naprijed i pogodim samo par komada o SAS-u, a zatim ću se upustiti, pravo u tehnološke arhitekture gdje SAS presijeca svijet velikih podataka. Ima puno toga za objasniti u svim ovim stvarima. Mogli bismo provesti sate detaljno prolazeći kroz njega, ali deset minuta - trebali biste biti u mogućnosti hodati samo sa kratkim razumijevanjem mjesta gdje je SAS preuzeo analitiku, upravljanje podacima i tehnologije poslovne inteligencije u ovaj svijet podataka.


Prvo, samo malo o SAS-u. Ako niste upoznati s ovom organizacijom, posljednjih 38 godina bavili smo se naprednom analitikom, poslovnom inteligencijom i upravljanjem podacima s ne samo velikim podacima, već i malim podacima i bogatstvom podataka. Imamo ogromno postojeće stopa za kupce, oko 75 000 web lokacija širom svijeta, radeći s nekim od najboljih organizacija tamo. Mi smo privatna organizacija s oko 13.000 zaposlenih i 3 milijarde dolara prihoda. I stvarno, valjda, važan dio je taj što tradicionalno imamo dugogodišnju povijest investiranja značajnih količina svog prihoda u našu istraživačko-razvojnu organizaciju, što je zaista donijelo puno ovih nevjerojatnih tehnologija i platformi. ' vidimo se danas.


Idem uskočiti u ove zaista zastrašujuće dijagrame arhitekture. Na mojim slajdovima ćemo raditi s lijeva na desno. Dakle, postoje poznate stvari koje ćete vidjeti unutar ove platforme. Na lijevoj strani su svi ti izvori podataka o kojima govorimo o gutanju na tim velikim platformama podataka. I onda, imate tu veliku platformu podataka.


Nisam samo stavio riječ Hadoop na vrh, jer na kraju, primjeri koje ću danas dati su upravo oko svih tehnologija u kojima se križamo s tim velikim platformama podataka. Upravo se Hadoop dogodio kao jedan od onih gdje imamo neke od najsnažnijih opcija implementacije, ali također se presiječemo te smo već neko vrijeme razvili mnogo tih tehnologija s nekim od naših ostalih partnera u skladištu podataka poput poduzeća Teradata, Oracle, Pivotal i slično. Dakle, ne mogu ulaziti u velike detalje s obzirom na to koliko su različite tehnologije podržane na kojoj platformi, ali budite sigurni da su sve ove koje danas opisujem uglavnom sve što je Hadoop i ogromna količina njih se presijeca s drugim tehnološkim partnerima koji imamo. Dakle, imamo toliko veliku platformu koja sjedi tamo.


Sljedeći desno, imamo analitički poslužitelj SAS LASR. Sada je to, u biti, paralelno u analitičkom aplikacijskom poslužitelju memorije. Bilo bi nam jasno da to nije baza podataka u memoriji. Stvarno je dizajniran od temelja. To nije mehanizam upita, ali dizajniran je za masovno paralelno pružanje analitičkih zahtjeva. To su aplikacije za ključeve servisa koje vidite s desne strane.


Malo ćemo se pozabaviti takvim stvarima kako ljudi razmještaju ove stvari. Ali u suštini, aplikacija - vidite li tu - prvu, naša je SAS analiza visokih performansi. To će biti - koristim puno naše postojeće tehnologije i platforme kao što su Enterprise Miner ili samo SAS, a ne samo radim multithreading s nekim od tih algoritama koje smo ugradili u one alate za koje smo radili godina, ali i masovno paralelno s tim. Dakle, premjestiti podatke s te velike platforme podataka u memorijski prostor na taj LASR analitički poslužitelj kako bismo mogli izvršiti analitičke algoritme - znate, puno novog strojnog učenja, neuronskih mreža, slučajnih regresija šuma, takvih vrsta stvari - opet, podaci koji sjede u sjećanju. Dakle, oslobađanje tog određenog uskog grla paradigme MapReduce gdje se nalazimo na tim platformama, to nije način na koji želite analitički raditi. Dakle, želimo biti u stanju jednom podići podatke u memorijski prostor i ponoviti ih, znate, ponekad i tisuće puta. To je koncept korištenja analitičkog LASR servera visokih performansi.


Mi također - ostale aplikacije ispod njega, vizualna analitika, koja nam omogućava da te podatke ostanemo u memoriji i služimo većoj populaciji na istim podacima. Dakle, dopuštajući ljudima da istražuju velike podatke. Dakle, prije nego što počnemo s razvojem modela, istražujemo podatke, razumijemo ih, radimo korelacije, radimo prognozu ili trendove stabala odluka - takve stvari - ali na vrlo vizualan, interaktivan način na podatke koji sjede u sjećanju platforma. To također pruža uslugu našoj BI zajednici u tome što imamo vrlo široku bazu korisnika koji mogu pogoditi tu platformu da bi napravili standardne vrste snimanja koje biste vidjeli - što je prilično velik broj, znate, dobavljača BI-a vani.


Sljedeći korak prelazimo na uslugu. A kako bismo pomogli našim statističarima i našim analitičarima da omoguće takvo ad-hoc modeliranje s podacima koji sjede u sjećanju, uklonjeni iz vizualne analitike i istraživanja u našoj aplikaciji za vizualnu statistiku. Ovo je prilika da ljudi uzimaju statistike u serijama koje su nekada ponavljale modele, pokretale modele, pregledavale rezultate. Dakle, to može pokrenuti model, pogledajte rezultate. Ovo se želi vizualno povući i ubaciti u interaktivno statističko modeliranje. Dakle, ovo pruža usluge našim statističarima i našim znanstvenicima s podacima kako bi napravili mnogo toga ranog istraživačkog vizualnog statističkog rada.


A onda nismo zaboravili naše kodire - ljudi koji to stvarno žele imati, moći ljuštiti slojeve sučelja nasuprot, je pisanje aplikacija i pisanje vlastite baze kodova u SAS-u. A to je naša statistika za pamćenje za Hadoop. A to je - u osnovi kôdni sloj koji nam je omogućio interakciju s tim analitičkim LASR serverom za izravno izdavanje naredbi i prilagođavanje tih aplikacija na temelju našeg zahtjeva. To je analitički dio.


Kako se stvari postavljaju ... Ups, žao mi je dečki. Idemo tamo.


Dakle, postoji zaista nekoliko načina na koje to radimo Jedno je učiniti s velikim podacima - u ovom slučaju s Hadoop-om. I tu imamo taj SAS LASR analitički poslužitelj koji radi u zasebnom skupu strojeva koji su optimizirani za hardcore analitiku. Ovo je lijepo smješten uz platformu velikih podataka, što nam omogućava da ga skaliramo odvojeno od velike podatkovne platforme. Dakle, vidimo kako ljudi to rade kad ne žele imati nešto što karakteriziram poput softvera vampira koji jede na svim čvorovima u njihovom klasteru Hadoop. I ne moraju nužno razmjeravati veliku platformu podataka potrebnu za izradu teških memorijskih analiza. Dakle, možda imate 120 čvorova njihovog Hadoop skupa, ali oni mogu imati 16 čvorova analitičkih poslužitelja koji su dizajnirani za takvu vrstu posla.


Još nam je dopušteno da održavamo taj paralelizam s velike platforme podataka da bismo podatke izvukli u memoriju. Dakle, uistinu je riječ o korištenju SAS-a s Hadoop platformom. Različiti model imenovanja tada treba reći, dobro, možemo koristiti i tu robnu platformu i potaknuti to - u osnovi pokrenuti analitički LASR server na Hadoop platformama. Dakle, to je ono gdje mi ... djelujete unutar velike platforme podataka. To su također neki drugi naši dobavljači uređaja. Dakle, to nam je omogućilo da u osnovi koristimo tu robnu platformu da bismo radili.


Češće to vidimo kod stvari poput analitike visokih performansi, gdje se radi o analitičkoj vožnji za jednokratnu upotrebu ili jednokratnoj uporabi, više vrsti orijentirane serije, gdje ne želite nužno trošiti memorijski prostor na Hadoopu platforma. Vrlo smo fleksibilni u ovakvom modelu implementacije, definitivno u našem radu s YARN-om u mnogim ovim slučajevima kako bismo bili sigurni da igramo lijepe klastere.


Ok, tako da je to analitički svijet, samo da budem jasan tamo s analitičkom aplikacijom. Ali spomenuo sam da je SAS u samom početku također platforma za upravljanje podacima. A postoje stvari koje je prikladno gurati logiku u tu platformu, gdje je to prikladno. Dakle, postoji nekoliko načina na koje to radimo. Jedan je u svijetu integracije podataka, ako radite na transformaciji podataka možda nema smisla povući ga onako kako smo čuli, izvodeći rutine dobre kvalitete podataka. Želimo definitivno gurnuti stvari poput rutine kvalitete podataka dolje na tu platformu. A onda, stvari poput modela bodovanja. Tako sam razvio svoj model. Ne želim prepisivati ​​tu stvar u MapReduce i otežavati mi i oduzimaće puno vremena da to radim ponovo u matičnu platformu baze podataka.


Dakle, ako pogledate, na primjer, naš akcelerator za ocjenjivanje Hadoopa, koji nam omogućuje da u osnovi uzmemo model i gurnemo SAS matematičku logiku dolje na tu Hadoop platformu i tamo je izvršimo, koristeći paralelizam koji je unutar te velike platforme podataka. Zatim imamo svoj akcelerator koda za razne platforme, uključujući Hadoop, i to nam omogućava da u osnovi pokrećemo SAS korak koraka podataka unutar platforme na masovno paralelni način - dakle, radeći transformaciju podataka rade na platformi. A zatim naš SAS ubrzivač kvalitete podataka koji nam omogućava da tamo imamo bazu znanja o kvalitetu koja može činiti stvari poput podudaranja spolova, standardizacijskog koda podudaranja - sve različite stvari o kvaliteti podataka koje ste čuli već danas.


I onda, posljednji dio, tu je Učitavač podataka. Znamo da će naši poslovni korisnici morati biti u stanju pisati kod, raditi transformaciju podataka na ovim velikim platformama podataka. Učitavanje podataka je lijep WYSIWYG GUI koji nam omogućuje da zajedno uklopimo te druge tehnologije. To je poput čarobnjaka za prolazak, recimo, pokretanja upita Hive ili pokretanja rutine kvalitete podataka i u tom slučaju ne morate pisati kôd.


Posljednje što ću spomenuti je ovaj prednji dio. Kao što sam već spomenuo, imamo ogromno SAS stopalo tamo u svijetu. I ovo, ne možemo jednostavno nužno učiniti sve one platforme koje su vani da bi se odmah našle u ovom prostoru. Dakle, mi definitivno imamo podnožje korisnika koji trebaju dobiti podatke koji sjede na tim velikim platformama podataka, kao što su vađenje podataka iz Teradata i njihovo ponovno uvođenje u Hadoop, i obrnuto. Pokretanje modela već znam kako se izvoditi na mojim SAS poslužiteljima, ali moram dobiti podatke koji su sada smješteni u Hadoop platformu. Dakle, tu je i druga mala ikona koja se zove "from", a koja nam omogućava povezivanje pomoću naših SAS pristupnih motora - pristupnih motora s Hadoop-om do Cloudere u Poli, Teradata, Greenplum-a do ... A popis se nastavlja. To nam omogućava da koristimo postojeće zrele SAS platforme koje su već na raspolaganju kako bismo dobili podatke s tih platformi, obavili posao koji trebamo završiti, gurnuti rezultate natrag u ta područja.


Posljednje što ću spomenuti je da su sve te tehnologije koje vidite upravljane istim standardnim zajedničkim metapodacima. Dakle, mi govorimo o tome kako preobraziti posao, pravilo kvalitete podataka na djelu, premjestiti ga u memoriju kako bismo mogli raditi analitiku, razvijati model u bodovanju. Tamo imamo čitav analitički način života, životni ciklus kojim upravljaju zajednički metapodaci, upravljanje, sigurnost, sve one stvari o kojima smo danas razgovarali.


Dakle, samo rezime, postoje tri velike stvari koje trebate odnijeti tamo. Jedan je, da podatkovnu platformu možemo tretirati kao i bilo koji drugi izvor podataka, povlačeći se iz njih i gurajući ih kada je to prikladno i prikladno. Možemo raditi s tim velikim platformama podataka, uvrštavajući podatke u posebno izgrađenu naprednu analitiku u memorijskoj platformi. To je LASR server.


I onda, konačno, možemo izravno raditi na velikim platformama podataka, iskorištavajući svoje distribucijske mogućnosti obrade bez pomicanja podataka.


Eric: Pa to su fantastične stvari. Da, ovo je sjajno! Dakle, upustimo se u neka pitanja. Na ove događaje obično idemo oko 70 minuta ili malo duže. Dakle, vidim da i dalje imamo sjajnu publiku. George, pretpostavit ću vam prvo pitanje. Ako govorite o guranju svog binarnog zvuka u Hadoop, mislim da to zvuči kao da ste stvarno optimizirali računski tijek rada. I to je sve u ključu kako biste mogli vršiti ove vrste upravljanja podacima u stvarnom vremenu, dostignuća stila kvalitete podataka, jer to je vrijednost koju želite dobiti, zar ne? Ako se ne želite vratiti u stari svijet MDM-a gdje je to vrlo nezgrapno i dugotrajno, te stvarno morate prisiljavati ljude da djeluju na određene načine, što gotovo nikada ne funkcionira. I tako, ono što ste učinili kondenzirali ste ciklus onoga što je bilo. Nazovimo to danima, tjednima, ponekad čak i mjesecima do sekunde, zar ne? Je li to ono što se događa?


George: To je sasvim u redu, jer razmjere koje postižemo i učinak koji izvučemo iz klastera zaista su zapanjujući u smislu, samo, znate, uvijek se malo neodlučno odnosim s referentnim vrijednostima. Ali samo za red veličine, kada bismo pokrenuli milijardu, 1,2 milijarde zapisa i izveli potpunu standardizaciju adresa - kažem HP stroj srednje klase - trebalo bi vam, kao, znate, osam procesorskih strojeva, znate , 2 giga RAM-a po jezgri, znate da bi za pokretanje trebalo 20 sati. To možemo učiniti za oko osam minuta na klasteru sa 12 čvorova. Dakle, opseg obrade koji sada možemo obaviti toliko je dramatično drugačiji da se vrlo lijepo slaže s idejom da imate sve ove podatke na raspolaganju. Dakle, nije tako rizično obavljati obradu. Ako ste to učinili pogrešno, možete to ponoviti. Imaš vremena, znaš. Zaista je promijenila razmjere ovoga gdje, znate, te su vrste rizika zaista postale stvarni poslovni problemi ljudi kad su pokušavali koristiti MDM rješenja. Morate imati 30 ljudi u priobalju koji rade na upravljanju podacima i tako dalje. I tako, još uvijek morate imati nešto od toga, ali brzina i razmjera kojim možete sada obrađivati, zaista vam daju puno više prostora za disanje.


Eric: Da, to je stvarno, jako dobar poanta. Volim taj komentar. Dakle, imate vremena da ga ponovo napravite. To je fantastično.


George: Da.


Eric: Pa, to mijenja dinamiku, zar ne? To mijenja način na koji razmišljate o onome što ćete pokušati. Mislim, sjećam se toga prije 18 godina u industriji koji radi posebne efekte, jer sam imao klijenta koji je bio u tom prostoru. A ti bi pritisnuo tipke za renderiranje i išao bi kući. A ti bi se vratio, možda u subotu popodne, da vidiš kako ide. Ali ako ste pogriješili, to je bilo vrlo, jako, vrlo bolno. I sada, to nije ni približno - ni blizu je to što je tako bolno, pa imate priliku isprobati još stvari. Moram reći da mislim da je to zaista, stvarno dobra poanta.


George: To je sasvim tačno. Da, i pušeš dodatnu nogu. Znate, u prošlim vremenima ste dobili posao na pola puta, a on ne uspije, raznio ste SOS. To je to.


Eric: Dobro. I vi ste u velikim problemima, da. Tako je.


George: Tako je. Tako je.


Eric: Keith, dopusti da ti dam jedan. Sjećam se da sam radio intervju sa svojim CIL-om, Keithom Collinsom, vjerujem da sam se vratio u, možda, 2011. godinu. A on je puno govorio o smjeru kojim se SAS posebno zauzima u vezi s radom s kupcima kako bi analitiku dobivenu iz SAS-a ugradili u operativne sustave. I naravno, čuli smo Mikea Fergusona kako govori o važnosti pamćenja. Cijela ideja ovdje je da želite ovo stvari moći vezati za svoje poslovanje. Ne želite analizu u vakuumu, isključenim iz poduzeća. To nema nikakve vrijednosti.


Ako želite analizu koja može izravno utjecati i optimizirati operacije. A ako se osvrnem - i moram reći, tada sam mislio da je to dobra ideja - izgleda stvarno, stvarno pametna ideja. I pretpostavljam, to je prava prednost koju ste imali. I naravno, ovo veliko nasljeđe, ogromna baza za instaliranje i činjenica da ste bili usredotočeni na ugradnju ove analitike u operativne sustave, što sada znači - i odobreno, trebat će malo rada - siguran sam da ' radim na tome prilično naporno. Ali sada, možete iskoristiti sve te novosti i stvarno ste u mogućnosti da sve te stvari operacionalizirate sa svojim kupcima. Je li to fer procjena?


Keith: Da, apsolutno. Koncept je, vi shvaćate o dizajnu odluka ili znanosti o odlučivanju, što je, do neke mjere, istraživačka, znanstvena stvar. Osim ako stvarno ne možete učiniti inženjering na procesu ... Ako razmišljate o razvoju automobila, imate dizajnere koji čine ovaj prekrasan automobil, ali to je sve dok inženjeri ne postave taj plan i naprave stvarni održivi proizvod prije vas mogu stvari staviti na svoje mjesto, a to je u biti i SAS učinio. Spojio je odluke - proces oblikovanja odluka sa procesom inženjeringa odluka zajedno, tako da kada govorite o akceleratorima, posebno akceleratorima za bodovanje, znate, ako uzmete model koji ste razvili i budete u mogućnosti da ga istisnete. do Teradata ili ga izbacite u Oracle ili Hadoop, bez ikakvog zastoja za razvoj modela, na uvođenje modela. To je ključno, jer modeli s vremenom propadaju, točnost tih modela. Dakle, što duže trebate da to uzmete i uđete u proizvodnju, to je gubitak točnosti modela.


A onda, drugi dio je, koji želite nadgledati i upravljati tim procesom tijekom vremena. Ako želite zastarjeti modele kada ostare i budu netačni. Želite pogledati, provjeriti točnost istih s vremenom i obnoviti ih. I tako, imamo alate za upravljanje modelima koji također stoje na vrhu, a koji stvarno prate metapodataka oko modeliranog procesa. I ljudi su rekli da znate, takav koncept je poput tvornice modela, ili kako god želite, kako biste je nazvali. Stvar je u tome što stavljamo metapodate i upravljanje u obradu i tu ćemo pronaći tri velike stvari - pomažemo ljudima da zarađuju, štedimo i čuvamo ih iz zatvora.


Eric: I ovaj je posljednji prilično velik. Želim izbjeći sve to. Dakle, hajde da razgovaramo o ...Dajem jedno posljednje pitanje, možda i vi oboje možete skočiti na ovo. Heterogenost našeg svijeta samo će se povećavati, čini mi se. Mislim da ćemo definitivno vidjeti neku kristalizaciju oko hibridnog oblačnog okruženja. No bez obzira na to, vidjet ćete da se mnogi glavni igrači zadrže. IBM ne ide nikamo. Oracle ne ide nikamo. SAP ne ide nikamo. A toliko je drugih proizvođača koji su uključeni u ovu igru.


Također, s operativne strane, gdje imate doslovno tisuće i tisuće različitih vrsta aplikacija. I čuo sam - većina vas razgovara o tome, ali mislim da biste se oboje složili s onim što sam govorio. Taj smo trend već vidjeli u pogledu računske snage u analitičkim motorima, arhitekturi. Tvrtke već godinama pričaju o mogućnosti uključenja ostalih motora i servisiranja svojevrsnog mjesta za orkestraciju. I pretpostavljam, George, prvo ću ti to baciti. Čini mi se da se nešto neće promijeniti. Imat ćemo ovo heterogeno okruženje, što znači da postoje stvari poput CRM-a u stvarnom vremenu i kvalitete podataka i upravljanja podacima. Kao dobavljač morat ćete se suočiti sa svim tim različitim alatima. A to je ono što kupci žele. Neće htjeti nešto što s tim alatima bude u redu, a ne s tim alatima. Oni će htjeti u Švicarskoj MDM i CRM, zar ne?


George: Tako je. I zanimljivo je jer smo to jako dobro prihvatili. Dio je to povijesti koju smo imali u prostoru. I očito smo već radili na svim ostalim bazama podataka, Teradatama i djelovima svijeta. Zatim smo napravili - u procesu implementacije, konkretno onako kako smo to učinili - upravo tako da i vi - imate raspon u svim tim različitim bazama podataka. Jedna od stvari koja mi se čini zanimljivom je ta što imamo nekoliko klijenata koji su na pravi način uklonjeni u sve relacijske baze podataka. I to je zanimljivo Znaš, mislim, to je u redu. Zanimljivo je. Ali samo ne vidim da se to zaista događa u velikom nivou poduzeća. Ne vidim se da se to događa dugo vremena Mislim da je hibrid ovdje već duže vrijeme i na drugoj strani naše aplikacije gdje u našoj platformi za upravljanje kampanjom imamo svoju platformu za razmjenu poruka. Mi smo to zapravo posebno dizajnirali. Sada smo objavili verziju koja to čini i koja se sada može povezati u hibridnom okruženju podataka i upiti Hadoop, ili upitati bilo koju bazu podataka, bilo koju analitičku bazu podataka. Dakle, mislim da je to samo val budućnosti. Slažem se da će virtualizacija sigurno igrati veliku ulogu u tome, ali mi smo samo - idemo odmah prema podacima u svim našim aplikacijama.


Eric: Dobro, super. I, Keith, prebacit ću ti to. Što mislite o raznorodnom svijetu s kojim smo suočeni djelujući kao podnožje?


Keith: Da, stvarno je fascinantno. Mislim da ono što nalazimo više - ne samo na strani upravljanja podacima - već ono što je trenutno fascinantno jest priroda analitičke baze otvorenog koda. Dakle, vidimo organizacije poput tehnologija ili tehnologija poput Sparka koji dolaze na brod i ljude koji koriste Python i R i sve ove druge tehnologije otvorenog koda. Mislim da bi se to moglo protumačiti kao neka vrsta sukoba ili prijetnje u određenoj mjeri. Ali u stvarnosti je da imamo zaista divne pohvale za sve one open-source tehnologije. Mislim, za prvo, djelujemo na platformama otvorenog koda, za Boga miloga.


Ali isto tako, poput mogućnosti da integrirate, na primjer, R model u SAS paradigmu omogućava vam korištenje najboljeg iz oba svijeta, zar ne? Dakle, znamo da su neke eksperimentalne stvari u akademskom svijetu i neke od radova na razvoju modela izvanredne i super pomažu u procesu razvoja modela. No isto tako, ako to možete upotrijebiti s alatom proizvodne klase, on čini puno čišćenja i kvalitete te provjere i provjere da li su podaci ustupljeni modelu ispravno pripremljeni, tako da ne uspijeva na izvršenje. I onda, kad možete raditi stvari poput šampionskih izazivačkih modela s modelima otvorenog koda. To su stvari koje promatramo kako bismo omogućili i koje su dio ovog zaista heterogenog ekosustava svih ovih tehnologija. Da, tako je i više - za nas je to više prihvaćanje tih tehnologija i traženje komplimenta.


Eric: Pa, ovo su fantastične stvari. Otišli smo malo ovdje, ali voljeli bismo doći do što više pitanja. Danas ćemo proslijediti našu datoteku pitanjima i odgovorima. Dakle, ako na pitanje koje ste postavili nije odgovoreno, pobrinut ćemo se da dobije odgovor. I ljudi, ovo zaključuje za 2014. Vaš istinski na radiju DM sutra i sljedeći tjedan, a onda je sve završeno i praznik je.


Puno hvala svima vama na vašem vremenu i pažnji, na stajanju kroz sve ove prekrasne internetske emisije. Imamo sjajnu godinu za postrojbu za 2015. I uskoro ćemo razgovarati s vama, narode. Hvala još jednom. Mi ćemo se pobrinuti. Doviđenja.