Sadržaj
Predstavio: AltaML
P:
Koji je jednostavan način opisivanja pristranosti i odstupanja u strojnom učenju?
A:
Postoji nekoliko različitih složenih načina za opisivanje pristranosti i varijanci u strojnom učenju. Mnogi od njih koriste značajno složene matematičke jednadžbe i grafičkim prikazom prikazuju kako konkretni primjeri predstavljaju različite količine pristranosti i varijance.
Evo jednostavnog načina za opisivanje pristranosti, varijanci i odstupanja / odstupanja u strojnom učenju.
U osnovi je pristranost prevelika pojednostavljenja. Može biti važno dodati definiciji pristranosti neku pretpostavku ili pretpostavljenu pogrešku.
Ako vrlo pristrani rezultat ne bi bio u zabludi - ako je na novcu - bio bi točan. Problem je što pojednostavljeni model sadrži određenu pogrešku, tako da nije uočen za vida - značajna greška se ponavlja ili čak pojačava dok program strojnog učenja.
Jednostavna definicija varijance je da su rezultati previše raspršeni. To često dovodi do prekompliciranosti programa i problema između seta testiranja i treninga.
Velika varijanca znači da male promjene stvaraju velike promjene u ishodima ili rezultatima.
Drugi način jednostavnog opisivanja varijance je da ima previše šuma u modelu, pa je strojno učenje programa teže izolirati i identificirati pravi signal.
Dakle, jedan od najjednostavnijih načina uspoređivanja pristranosti i varijance je sugeriranje da inženjeri strojnog učenja moraju prijeći tanku liniju između prevelike pristranosti ili pojednostavljenja, prevelike varijance ili prekompleksnosti.
Drugi način za predstavljanje ove bušotine je shema s četiri kvadranta koja prikazuje sve kombinacije visoke i male varijance. U kvadrantu male pristranosti / male varijance, svi se rezultati skupe u točnu grozdu. Rezultat velike pristranosti / male varijance, svi su rezultati prikupljeni u netočnom skupu. U rezultatima s malim odstupanjem / velikom varijancom, rezultati su raštrkani oko središnje točke koja bi predstavljala točan klaster, dok su u rezultatima s velikom pristranosti / velikom varijancom, podatkovne točke raspršene i kolektivno netočne.