7 koraka za učenje podataka i podataka

Autor: Eugene Taylor
Datum Stvaranja: 12 Kolovoz 2021
Datum Ažuriranja: 22 Lipanj 2024
Anonim
7 koraka do poslovanja bez papira
Video: 7 koraka do poslovanja bez papira

Sadržaj


Izvor: Paul Fleet / Dreamstime.com

Oduzeti:

Znanost o podacima najbolje se uči radeći, ali i dobar temelj statistike i strojnog učenja.

Često me pitaju kako naučiti rudarstvo podataka i znanost o podacima. Evo mog sažetka.

Najbolje možete naučiti rudarjenje podataka i nauku o podacima, tako da započnite analizu podataka što prije! Međutim, ne zaboravite naučiti teoriju, jer vam treba dobar statistički i strojni temelj za učenje kako biste shvatili što radite i da u buci velikih podataka nađete prave vrijednosti.

Evo sedam koraka za učenje rudarstva i znanosti podataka. Iako su numerirane, možete ih raditi paralelno ili različitim redoslijedom.

  1. Jezici: učenje R, Python i SQL
  2. Alati: Saznajte kako koristiti alate za rudarjenje podataka i vizualizaciju
  3. knjige: Pročitajte uvodne knjige da biste razumjeli osnove
  4. Obrazovanje: Gledajte webinare, pohađajte tečajeve i razmislite o certifikatu ili diplomi znanosti znanosti (Pročitajte više u Ben Loricas Kako njegovati podataka znanstvenika.)
  5. Podaci: Provjerite dostupne resurse podataka i tamo pronađite nešto
  6. Natjecanja: Sudjelujte u natjecanjima za rudarjenje podataka
  7. Komunicirajte s drugim znanstvenicima podataka putem društvenih mreža, grupa i sastanaka

U ovom članku koristim izmjenjive podatke i znanost o podacima. Pogledajte moju prezentaciju, Pregled industrije analitike, gdje se bavim razvojem i popularnošću različitih pojmova poput statistike, otkrića znanja, vađenja podataka, prediktivne analitike, znanosti podataka i velikih podataka.


1. Učenje jezika

Nedavna anketa KDnuggets otkrila je da su najpopularniji jezici za rudarjenje podataka R, Python i SQL. Za svako postoji puno resursa, na primjer:

  • Besplatna e-knjiga o nauci o podacima s R
  • Početak rada s Pythonom za znanost podataka
  • Python za analizu podataka: Agile Alati za podatke iz stvarnog svijeta
  • Neizostavni Python: Sourcing podataka to Science Science
  • W3 škole koje uče SQL

2. Alati: Data Mining, Data Science i softver za vizualizaciju

Postoji mnogo alata za vađenje podataka za različite zadatke, ali najbolje je naučiti kako koristiti paket za rudarjenje podataka koji podržava čitav proces analize podataka. Možete početi s otvorenim kodom (besplatnim) alatima poput KNIME, RapidMiner i Weka.

Međutim, za mnoge analitičke poslove morate znati SAS, koji je vodeći komercijalni alat i široko korišten. Ostali popularni softveri za analitiku i prikupljanje podataka uključuju MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler i Rattle.


Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života

Ne možete poboljšati svoje programiranje kad nikoga nije briga za kvalitetu softvera.

Vizualizacija je važan dio svake analize podataka. Naučite kako koristiti Microsoft Excel (dobar za mnoge jednostavnije zadatke), R grafiku (posebno ggplot2), a također i Tableau - izvrstan paket za vizualizaciju. Ostali dobri alati za vizualizaciju uključuju TIBCO Spotfire i Miner3D.

3. knjige

Na raspolaganju je mnogo rudarstava podataka i znanstvenih knjiga, ali to možete provjeriti:

  • Rudarstvo i analiza podataka: Temeljni pojmovi i algoritmi, besplatni download (nacrt) u PDF-u, Mohammed Zaki i Wagner Meira Jr.
  • Data Mining: Praktični alati i tehnike strojnog učenja, Ian Witten, Eibe Frank i Mark Hall, od Weka-ovih autora, i Weka primjereno koristi u primjerima
  • Elementi statističkog učenja, vađenja podataka, zaključivanja i predviđanja, Trevor Hastie, Robert Tibshirani, Jerome Friedman. Sjajan uvod za matematički orijentirane
  • LIONbook: Učenje i inteligentna optimizacija, Roberto Battiti i Mauro Brunato, slobodno dostupni na webu, poglavlje po poglavlje
  • Iskopavanje knjiga masovnih podataka, A. Rajaraman, J. Ullman
  • Knjiga elektroničke statistike StatSoft (besplatno), uključuje mnoge teme rudarjenja podataka

4. Obrazovanje: Webinari, tečajevi, certifikati i diplome

Započnite gledajući neke od mnogih besplatnih webinara i webcast o najnovijim temama iz analitike, velikih podataka, vađenja podataka i znanosti o podacima.

Postoje i online tečajevi, kratki i dugi, od kojih su mnogi besplatni. (Pogledajte mrežni direktorij obrazovanja KDnuggets.)

Posebno provjerite ove tečajeve:

  • Strojno učenje, na Courseri, predavao Andrew Ng
  • Učenje iz podataka na edX-u, a predavao ga je profesor Caltech Yaser Abu-Mostafa
  • Otvorite internetski tečaj primijenjene znanosti podataka, iz Syracuse iSchool
  • Data Mining s Wekom, besplatni online tečaj
  • Provjerite i besplatne internetske slajdove iz mog tečaja za vađenje podataka, uvodni tečaj semestra u rudniku

Konačno, razmislite o dobivanju certifikata za iskopavanje podataka, znanosti o podacima ili više stupnjeve, poput magisterija iz znanosti podataka.

5. Podaci

Trebat će vam podaci za analizu - pogledajte KDnuggets direktorij skupova podataka za rudarjenje podataka, uključujući:

  • Državna, savezna, državna, gradska, lokalna i javna web mjesta i portali s podacima
  • API-ji podataka, sastajališta, tržišta, platforme, portali i tražilice
  • Besplatne javne skupove podataka

6. Natjecanja

Opet ćete najbolje učiti radeći, pa sudjelujte u Kaggle natjecanjima. Započnite s natjecanjima za početnike, kao što je predviđanje preživljavanja Titanica pomoću strojnog učenja.

7. Interakcija: Sastanci, grupe i društvene mreže

Možete se pridružiti mnogim vršnjačkim skupinama. Pogledajte Top 30 LinkedIn grupa za Google Analytics, velike podatke, vađenje podataka i znanost o podacima.

AnalyticBridge je aktivna zajednica za analitiku i znanost o podacima.

Možete prisustvovati nekim od mnogih sastanaka i konferencija o Analyticsu, velikim podacima, podacima, istraživanju podataka i otkrivanju znanja.

Također, razmotrite pristupanje ACM-u SIGKDD, koji organizira godišnju konferenciju KDD - vodeću istraživačku konferenciju na tom području.

Ovaj je članak stvoren od strane KDNuggets.com. Korišten je uz dopuštenje autora.