Ojačavanje učenja vs. Učenje dubokog ojačanja: u čemu je razlika?

Video: Deep Reinforcement Learning: Neural Networks for Learning Control Laws

Sadržaj

Što je ojačavanje učenja?
Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života
Što je duboko ojačavanje?

Oduzeti:

Otišli smo do stručnjaka i zamolili ih da odgovore važne razlike između učenja o pojačanju i učenja o dubokom pojačanju

Algoritmi strojnog učenja mogu olakšati život i rad, oslobađajući nas od suvišnih zadataka dok radimo brže - i pametnije - od čitavih timova ljudi. Međutim, postoje različite vrste strojnog učenja. Na primjer, postoji učenje ojačanja i učenje dubokog pojačanja.

"Iako su učenje ojačanja i duboko učvršćivanje obje tehnike strojnog učenja koje se samostalno uče, postoje neke razlike", rekao je dr. Kiho Lim, docent informatike na Sveučilištu William Paterson u Wayneu, New Jersey. "Ojačavanje učenja dinamički se uči metodom pokušaja i pogrešaka kako bi se maksimizirao ishod, dok se učenje s dubokim pojačanjem uči iz postojećih znanja i primjenjuje ga u novi skup podataka."

Ali što to točno znači? Otišli smo stručnjacima - i zamolili ih da navedu obilje primjera!

Što je ojačavanje učenja?

Kao što kaže Lim, pojačano učenje je praksa učenja pokušajem i pogreškama - i praksa. "U ovoj disciplini model uči u primjeni tako što će se postupno nagrađivati za ispravno predviđanje i kažnjavati za pogrešna predviđanja", kaže Hunaid Hameed, pripravnik u istraživanju podataka u Data Science Dojo u Redmondu, WA. (Pročitajte učenje ojačanja može pružiti lijep dinamički okret marketingu.)

"Ojačavanje učenja obično se vidi u AI igranju igara i poboljšanju u igri s vremenom."

Tri ključne komponente u učenju pojačanja su agent, akcija i nagrada. "Ojačavanje učenja pridržava se određene metodologije i određuje najbolja sredstva za postizanje najboljeg rezultata", rekao je dr. Ankur Taly, šef znanosti o podacima u Fiddler Labs u Mountain Viewu, CA. "Vrlo je slična strukturi načina na koji igramo videoigru u kojoj lik (agent) sudjeluje u nizu suđenja (radnji) kako bi postigao najveći rezultat (nagradu)."

Međutim, to je autonomni sustav samoučenja. Koristeći se primjerom videoigara, Taly kaže da pozitivne nagrade mogu doći povećanjem bodova ili bodova, a negativne nagrade mogu biti rezultat trčanja u prepreke ili nepovoljnih poteza.

Chris Nicholson, predsjednik uprave San Francisca, sa sjedištem u Kaliforniji, Skymind gradi na primjeru kako algoritmi uče na pokušaju i pogrešci. “Zamislite da prvi put igrate Super Mario Brothers i pokušavate otkriti kako pobijediti: istražite prostor, patite, skačete, udarate novčićem, sletite na kornjaču i onda vidite što se događa. "

Bez grešaka, bez stresa - Vaš korak po korak vodič za stvaranje softvera koji mijenja život bez uništavanja života

Ne možete poboljšati svoje programiranje kad nikoga nije briga za kvalitetu softvera.

Učenjem dobrih i loših radnji igra vas uči kako se ponašati. "Ojačavanje učenja to čini u bilo kojoj situaciji: videoigrice, igre na ploči, simulacije slučajeva upotrebe u stvarnom svijetu." Zapravo, Nicholson kaže da njegova organizacija koristi učenje ojačanja i simulacije kako bi pomogla kompanijama da pronađu najbolji put donošenja odluka kroz složenu situaciju.

U učenju pojačanja agent donosi nekoliko manjih odluka kako bi postigao veći cilj. Još jedan primjer je podučavanje robota da hoda. "Umjesto tvrdo kodiranja smjera za podizanje jedne noge, savijanje koljena, njegovo spuštanje i tako dalje, pristup učenja s pojačanjem mogao bi eksperiment robota s različitim redoslijedima pokreta i otkriti koje su kombinacije najuspješnije u njegovom pravljenju idite naprijed ", kaže Stephen Bailey, znanstvenik za podatke i alat za analitičku analizu iz Immuta u College Park, dr. med.

Osim video igara i robotike, postoje i drugi primjeri koji vam mogu objasniti kako funkcionira učenje ojačanja. Brandon Haynie, glavni istraživač podataka na ulici Babel u Washingtonu, DC, uspoređuje je s ljudskim učenjem vožnje biciklom. "Ako mirujete i podižete noge bez pedaliranja, pad - ili kazna - neizbježan je."

Međutim, ako počnete pedalirati, tada ćete ostati na biciklu - nagrada - i prijeći na sljedeće stanje.

"Ojačavanje učenja ima aplikacije koje se tiču nekoliko sektora, uključujući financijske odluke, kemiju, proizvodnju i naravno robotiku", kaže Haynie.

Što je duboko ojačavanje?

Međutim, moguće je da odluke postanu previše složene za pojačani pristup učenju. Haynie kaže da je algoritam za algoritam učenja iz svih stanja i određivanja puta nagrađivanja. "Ovdje može pomoći duboko učvršćivanje: dio" dubokog "odnosi se na primjenu neuronske mreže za procjenu stanja, umjesto da preslikava svako rješenje, stvarajući upravljiviji prostor rješenja u procesu odlučivanja."

To nije novi koncept. Haynie kaže da postoji od 1970-ih. "Ali s pojavom jeftinog i moćnog računanja, dodatne prednosti neuronskih mreža sada mogu pomoći u rješavanju područja za smanjenje složenosti rješenja", objašnjava on. (Pročitajte Koja je razlika između umjetne inteligencije i neuronskih mreža?)

Pa, kako to radi? Prema Peteru MacKenzieu, vođi AI tima, Amerika na Teradati, to je previše podataka za pohranjivanje u tablice, a tabelarne će metode zahtijevati od agenta da posjeti sve kombinacije država i akcija.

Međutim, učenje s jakim ojačavanjem zamjenjuje tablične metode procjene vrijednosti stanja s aproksimacijom funkcije. "Približavanje funkcije ne samo da eliminira potrebu za pohranjivanjem svih parova stanja i vrijednosti u tablicu, već omogućuje agentu generaliziranje vrijednosti stanja koje nikada ranije nije vidio, ili ima djelomične informacije o tome, korištenjem vrijednosti sličnih stanja." Kaže MacKenzie.

„Dosta je uzbudljivih napretka u učenju dubokog pojačanja došlo zbog snažne sposobnosti neuronskih mreža da generaliziraju kroz ogromne državne prostore.“ A MacKenzie napominje da se učenje dubokog pojačanja koristi u programima koji su pobijedili neke od najboljih ljudskih natjecatelja u takvim igrama kao što su Chess and Go, a odgovorni su i za mnogo napretka u robotici. (Pročitajte 7 žena voditeljica u AI, strojno učenje i robotika.)

Bailey se slaže i dodaje: "Ranije ove godine, AI agent po imenu AlphaStar pobijedio je najboljeg svjetskog igrača StarCraft II - i to je posebno zanimljivo jer za razliku od igara poput Chess and Go, igrači StarCrafta ne znaju što njihov protivnik radi." Umjesto toga, kaže da su morali napraviti početnu strategiju, a zatim se prilagoditi čim su otkrili što protivnik planira.

Ali kako je to uopće moguće? Ako model ima neuronsku mrežu više od pet slojeva, Hameed kaže da ima mogućnost zadovoljavanja podataka velike dimenzije. "Zbog toga model može naučiti samostalno identificirati obrasce bez ljudskog inženjera i izabrati varijable koje bi trebale biti unesene u model kako bi naučio", objašnjava on.

U otvorenim scenarijima zaista se može vidjeti ljepota učenja dubokog pojačanja. Taly koristi primjer rezervacije stola u restoranu ili narudžbe za predmet - situacije u kojima agent mora reagirati na bilo koji unos s drugog kraja.

"Naučenje dubokog pojačanja može se koristiti za treniranje razgovora s drugog ili audio signala s drugog kraja", kaže on. "Tijekom korištenja audio signala, agent također može naučiti hvatati suptilne znakove zvuka kao što su pauze, intonacija i slično - to je snaga učenja dubokog pojačanja."

I dalje se pojavljuju nove aplikacije učenja dubokog pojačanja. Određujući sljedeću najbolju radnju s kupcem, MacKenzie kaže da "stanje i radnje mogu uključivati sve kombinacije proizvoda, ponuda i poruka na svim različitim kanalima, pri čemu je svaki personaliziran - formulacije, slike, boje, fontove."

Drugi primjer je optimizacija lanca opskrbe, na primjer, isporuka pokvarljivih proizvoda širom SAD-a „Moguća stanja uključuju trenutnu lokaciju svih različitih vrsta prijevoza, zalihe u svim postrojenjima, skladištima i prodajnim mjestima, te prognozu potražnje za sve prodavaonicama ", kaže MacKenzie.

„Korištenje dubokog učenja za predstavljanje stanja i prostora djelovanja omogućava agentu donošenje boljih logističkih odluka koje rezultiraju pravovremenijom isporukom uz niže troškove.“