Prečo lstm rieši miznúci gradient?

Obsah:

Prečo lstm rieši miznúci gradient?
Prečo lstm rieši miznúci gradient?

Video: Prečo lstm rieši miznúci gradient?

Video: Prečo lstm rieši miznúci gradient?
Video: LSTM - долгая краткосрочная память | #23 нейросети на Python 2024, November
Anonim

LSTM riešia problém pomocou jedinečnej aditívnej štruktúry gradientu, ktorá zahŕňa priamy prístup k aktiváciám zabudnutej brány, čo umožňuje sieti podporovať požadované správanie z gradientu chýb pomocou častých aktualizácií brán v každom časovom kroku vzdelávacieho procesu.

Ako LSTM rieši explodujúci gradient?

Veľmi krátka odpoveď: LSTM oddeľuje stav bunky (zvyčajne označovaný c) a skrytú vrstvu/výstup (zvyčajne označovaný h) a vykonáva iba aditívne aktualizácie c, vďaka čomu sú pamäte v c stabilnejšie. Takto sa gradient tokov cez c udržiava a je ťažké ho zmiznúť (preto je ťažké zmiznúť celkový gradient).

Ako sa dá vyriešiť problém miznúceho gradientu?

Riešenia: Najjednoduchším riešením je použitie iných aktivačných funkcií, ako napríklad ReLU, ktoré nespôsobuje malú deriváciu. Ďalším riešením sú zvyškové siete, pretože poskytujú zvyškové spojenia priamo so staršími vrstvami.

Aký problém rieši LSTM?

LSTM. LSTM (skratka pre dlhodobú krátkodobú pamäť) primárne rieši problém miznúceho gradientu pri spätnom šírení. LSTM používajú mechanizmus hradlovania, ktorý riadi proces ukladania do pamäte. Informácie v LSTM možno ukladať, zapisovať alebo čítať cez brány, ktoré sa otvárajú a zatvárajú.

Prečo LSTM bránia vašim stúpaniam, aby zmizli pohľad zo spätného priesmyku?

Dôvodom je to, že na vynútenie tohto toku konštantných chýb bol výpočet gradientu skrátený, aby netiekol späť do vstupných alebo kandidátskych brán.

Odporúča: