Katalozi podataka i sazrijevanje tržišta strojnog učenja

Sadržaj

The Infonomics Imperative
Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života
Što katalozi podataka mogu učiniti za tvrtke
Dodavanje u strojnom učenju
Kako odabrati

Izvor: Nmedia / Dreamstime.com

Oduzeti:

Tržište MLDC-a raste, a poduzeća koja žele učinkovito utjecati na velike podatke pomoću strojnog učenja trebaju biti svjesna glavnih imena na terenu i njihove pojedinačne ljestvice.

Ovo je doba velikih podataka. Informacije smo preplavljene i tvrtkama je to izazov za upravljanje i izvlačenje vrijednosti iz njih.

Današnji protok velikih podataka ne uključuje samo volumen, raznolikost i brzinu, već i složenost. Kao što je SAS utvrdio u povijesti velikih podataka i trenutnim razmatranjima, to je faktor strujanja "iz više izvora, što otežava povezivanje, podudaranje, čišćenje i transformiranje podataka u sustavima." (Želite saznati više o velikim podacima? Pogledajte (velike) podatke Velika budućnost.)

Pronalazak vrijednog uvida nije pitanje jednostavno nakupljanja što je moguće više podataka, već pronalaženja pravih podataka. Nemoguće je sve to raditi ručnim postupcima. Zbog toga se sve više tvrtki "okreće katalozima podataka kako bi demokratiziralo pristup podacima, omogućilo plemenskim znanjima da obrađuju informacije, primjenjuju politike podataka i brzo aktiviraju sve podatke za poslovnu vrijednost".

Tu se u sliku unose katalozi podataka (ponekad poznati i kao katalozi informacija). Kako je ovdje definirano, oni omogućuju „korisnicima da istražuju potrebne izvore podataka i razumiju istražene izvore podataka, a istovremeno pomažu organizacijama da postignu veću vrijednost od svojih sadašnjih ulaganja“. Jedan od načina na koji to čini jest omogućavanje mnogo većeg pristupa podacima među različitim vrstama korisnika koji mogu koristiti ili joj pridonijeti.

The Infonomics Imperative

Primjećujući dramatično povećanu potražnju za katalozima podataka krajem 2017., Gartner ih je nazvao "novom crnom". Postali su prepoznati kao brzo i ekonomično rješenje „popisati i razvrstati organizacije koje sve više distribuiraju i deorganiziraju imovinu podataka i mapiraju njihove lance za opskrbu informacijama“. Potreba za tim pojavila se zbog porasta "infomonike", koja zahtijeva primjenu iste pažljivosti u praćenju podataka kao i za upravljanje drugom poslovnom imovinom. (Za više informacija o lancima opskrbe, pogledajte kako Strojno učenje može poboljšati učinkovitost lanca opskrbe.)

Gartners uzimaju kretnje pomoću kataloga podataka o tehnologiji Forrester Wave ™: Strojno učenje, 2. tromjesečje 2018. Preko polovine sudionika u istraživanju u tom izvješću reklo je da planira izgraditi implementaciju kataloga podataka. Vjerojatno su ih u velikoj mjeri motivirali činjenicom da je svako imalo najmanje sedam jezera podataka u svojoj organizaciji. Kao što Gartner objašnjava da katalozi podataka objašnjavaju, katalozi podataka posebno su korisni za izvlačenje "prijevara, značenja i vrijednosti podataka" koji se obično ostavljaju u nerazvrstanom obliku u jezeru podataka.

Forrester izvještava da je više od trećine donositelja odluka i podataka koji se bave analitikom bavilo 1000TB ili više podataka u 2017. godini, iznos prijavljen za samo između 10 i 14 posto godinu prije. Upravljanje podacima na toj ljestvici je sve veći izazov, točnije dva izazova:

"1) spajanje postojećih poslovnih procesa na izvor podataka kako bi se analizirali i implementirali uvidi i 2) prikupljanje, prikupljanje, upravljanje i upravljanje podacima u porastu."

Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života

Ne možete poboljšati svoje programiranje kad nikoga nije briga za kvalitetu softvera.

Što katalozi podataka mogu učiniti za tvrtke

Gartner identificira posebne načine na koje katalozi podataka mogu poboljšati protok informacija i produktivnost organizacija:

Prikupljanje i priopćavanje ažurnog popisa imovinskih podataka koji je dostupan organizaciji.
Stvaranje zajedničkog pojma poslovnih pojmova koji definira semantičku interpretaciju i značenje podataka o organizacijama, pružajući na taj način sredstva za posredovanje i rješavanje definitivnih nedosljednosti.
Omogućivanje dinamičnog i okretnog okruženja za suradnju kako bi se poslovni i IT kolege mogli komentirati, dokumentirati i dijeliti podatke.
Osiguravanje transparentnosti upotrebe podataka analizom loze i utjecaja
Praćenje, revizija i praćenje podataka radi podržavanja procesa upravljanja informacijama.
Snimanje metapodataka radi poboljšanja interne analize upotrebe i ponovne upotrebe podataka, optimizacije upita i potvrde podataka.
Objedinjavanje informacija unutar svoje poslovne upotrebe hvatanjem, komuniciranjem i analizom postojećih podataka, odakle dolazi, od kojih se upotrebljava, zašto su potrebni, kako teče između procesa i sustava, tko je za to odgovoran, što to znači i kakvu vrijednost ima.

Dobivanje podataka koji su ispravno identificirani i dostupni ključnim ljudima u organizaciji važno je, kaže se u izvješću Gartnera, ne samo za pronalaženje načina „unovčavanja podataka podataka za digitalne poslovne rezultate“, već za usklađivanje s propisima, bilo da su industrijski specifične poput Zakona o prenosivosti zdravstvenog osiguranja i odgovornosti (HIPAA) ili općenitije naravi poput Opće uredbe o zaštiti podataka (GDPR).

Dodavanje u strojnom učenju

Ali ništa nije bez nedostataka. Problem je u katalozima podataka bio spor i zamorni proces koji je uslijed ručne izrade istih svih metapodataka koje je potrebno uspostaviti. Tu dolazi komponenta strojnog učenja.

Katalozi podataka koje je Forrester procijenio nazivaju se MLDCs jer koriste moć strojnog učenja, jedne od komponenti AI. Kako je objašnjeno u blogu Podium Data, to omogućava "izgradnju upornog skladišta metapodataka, a zatim primjenu ML / AI kako bi se izvadili i izložili potencijalno korisni uvidi oko dotičnih podataka."

Kako odabrati

Kako bi pomogao organizacijama da procijene koju tvrtku biraju, Forrester je primijenio 29 bodova ocjene na top 12 MLDC-a. Identificirao je lidere na ovom tržištu kao: IBM, Relito, Unifi Software, Alation i Collibra. Snažni izvođači na kojima su se našli su Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics i Cloudera. Hortonworks stoji sam u rangu "protivnika".

Ipak, ne treba prolaziti sam kroz cjelokupnu ljestvicu. Izvještaj raščlanjuje pojedine snage i slabosti svakog od njih. Prema tome, ako je neka značajka, poput istraživanja i razvoja, od najveće važnosti za organizaciju, ona može smatrati Hortonworks jednakim IBM-u i Colilbri za taj aspekt, jer njih troje dijele najviši rezultat pet za tu kvalitetu, koja je bila dva boda bolja od Alation i Coloudera i četiri boda bolja od Cambridge Semantika.

Sukladno tome, Izvještaj Forrestera savjetuje one koji njegovo izvješće koriste kao smjernice da ne pretpostavljaju da je najbolje ocijenjena tvrtka najbolji izbor za sve. Oni bi trebali obratiti veliku pozornost na analizu procjene kako bi pronašli ono što ispunjava njihove posebne zahtjeve.