Miért gyárt Laplace szétszórt megoldások előtt?
Végignéztem a legalizációs szakirodalmat, és gyakran látok olyan bekezdéseket, amelyek az L2 szabályozását Gaussian priorhoz, az L1 pedig a nulla középpontjába tartozó Laplace-et szabályozzák.
Tudom, hogy néznek ki ezek a priorok, de nem értem, hogy ez hogyan fordítható le például lineáris modellben a súlyokra. Az L1-ben, ahogy megértem, ritka megoldásokra számítanánk, vagyis egyes súlyokat pontosan nullára fognak tolni. És az L2-ben kis súlyokat kapunk, de nem nulla súlyokat.
De miért történik ez?
Kérjük, tegye meg észrevételeit, ha további információkra van szükségem, vagy tisztáznom kell a gondolkodásomat.
Az a priori Laplace-eloszlás kapcsolatát a mediánnal (vagy az L1-normával) maga Laplace találta meg, aki megállapította, hogy egy ilyen priori alkalmazásával inkább a mediánt becsüli, mint az átlagot, mint az eloszlás normálisával (lásd Stingler, 1986 vagy Wikipédia). Ez azt jelenti, hogy a Laplace-hibaeloszlással való regresszió megbecsüli a mediánt (például a kvantilis regressziót), míg a normál hibák az OLS-becslésre utalnak.
Az általad megkérdezett robusztus elődöket Tibshirani (1996) is leírta, és megjegyezte, hogy a robusztus Lasso regresszió Bayesi körülmények között egyenértékű a korábban Laplace használatával. Az együtthatók ilyen elsődleges értékei nulla körül vannak (a változók középre állítva), és farkuk széles - tehát az ezzel becsült regressziós együtthatók többsége pontosan nulla. Ez egyértelmű, ha alaposan megnézzük az alábbi képet, a Laplace-eloszlás csúcsa nulla körül van (nagyobb az eloszlási tömeg), míg a normális eloszlás diffúzabb nulla körül, tehát a nulla nélküli értékek nagyobbak valószínűségi tömeg. A robusztus a priori további lehetőségei a Cauchy-eloszlások vagy. t 'role = "prezentáció"> t