Zašto pokrenuti ML obuku na lokalnom stroju, a zatim pokretati redovnu izvedbu na poslužitelju?

Video: Import csv file in python Jupyter Notebook using pandas. Load csv file python Jupyter notebook

Sadržaj

P:

Zašto pokrenuti strojno učenje (ML) na lokalnom stroju i zatim pokretati redovnu izvedbu na poslužitelju?

A:

Pitanje kako strukturirati projekt strojnog učenja i njegove faze osposobljavanja i ispitivanja ima puno veze s načinom na koji se krećemo kroz „životni ciklus ML“ i program dovedemo iz trenažnog u proizvodno okruženje.

Jedan od najjednostavnijih razloga za korištenje gore navedenog modela stavljanja ML treninga na lokalni stroj i zatim prebacivanja izvršenja na sustav temeljen na poslužitelju je korist od presudne podjele dužnosti. Općenito, želite da set za trening bude izoliran, tako da imate jasnu sliku o mjestu gdje započinje i zaustavlja i gdje započinje testiranje. Ovaj članak o KDNuggets govori o principu na grub način, a također prolazi kroz neke druge razloge za izoliranje seta za trening na lokalnom stroju. Drugi osnovni prijedlog za ovaj model je da se s nastavcima za testiranje i testiranje na vrlo različitim arhitekturama nikada nećete zbuniti oko zajedničkog izdvajanja vlaka / testa!

Još jedna zanimljivost odnosi se na cyber-sigurnost. Stručnjaci ističu da ako imate početne procese vlaka na lokalnom stroju, to ne mora biti povezano s internetom! To proširuje sigurnost na fundamentalni način, "inkubirajući" proces dok ne dosegne proizvodni svijet, gdje tada morate ugraditi odgovarajuću sigurnost u model poslužitelja.

Uz to, neki od ovih „izoliranih“ modela mogu pomoći u problemima kao što su poniranje koncepta i skriveni nedostaci - načelo „nestacionarnosti“ upozorava programere da podaci „ne ostaju isti“ tijekom vremena (ovisno o tome što se mjeri) i da bi bilo potrebno mnogo prilagodljivosti da bi se ispitna faza podudarala s fazom vlaka. Ili se, u nekim slučajevima, postupci vlaka i ispitivanja miješaju zajedno, stvarajući zbrku.

Primjena testne faze na poslužitelju po prvi put može olakšati različite modele „crne kutije“ gdje riješite problem prilagodljivosti podataka. U nekim slučajevima, eliminira se suvišan proces slanja naloga za promjenu na više platformi.

Zatim, poslužiteljsko okruženje očito služi u stvarnom vremenu ili dinamičnim procesima u kojima će inženjeri željeti pristupiti modelima prijenosa podataka i kodovima koji najbolje rade za proizvodnju u ML-u. Na primjer, AWS Lambda može biti atraktivna opcija za rukovanje mikrofunkcijama proizvodnje (ili kombinacijom Lambda i S3 objekta za pohranu) i bez povezivanja (bez poslužitelja) koje postaje nemoguće.

Ovo su neka od pitanja o kojima programeri mogu razmišljati kada razmotre kako odvojiti faze obuke za ML u procesu testiranja i proizvodnje.