Bakit nilulutas ng lstm ang nawawalang gradient?

Talaan ng mga Nilalaman:

Bakit nilulutas ng lstm ang nawawalang gradient?
Bakit nilulutas ng lstm ang nawawalang gradient?
Anonim

Nilulutas ng

LSTMs ang problema gamit ang isang natatanging additive gradient structure na kinabibilangan ng direktang pag-access sa mga pag-activate ng forget gate, na nagbibigay-daan sa network na hikayatin ang gustong gawi mula sa gradient ng error gamit ang madalas na pag-update ng gate sa bawat hakbang ng proseso ng pag-aaral.

Paano nireresolba ng LSTM ang sumasabog na gradient?

Isang napakaikling sagot: Ang LSTM ay nagde-decouples ng cell state (karaniwang tinutukoy ng c) at nakatagong layer/output (karaniwang tinutukoy ng h), at gumagawa lamang ng mga additive na update sa c, na ginagawang mas matatag ang mga alaala sa c. Kaya ang gradient na dumadaloy sa c ay pinapanatili at mahirap mawala (samakatuwid ang kabuuang gradient ay mahirap mawala).

Paano malulutas ang nawawalang gradient na problema?

Solusyon: Ang pinakasimpleng solusyon ay ang gumamit ng iba pang mga activation function, gaya ng ReLU, na hindi nagdudulot ng maliit na derivative. Ang mga natitirang network ay isa pang solusyon, dahil nagbibigay sila ng mga natitirang koneksyon nang diretso sa mga naunang layer.

Anong problema ang nalulutas ng LSTM?

LSTMs. Pangunahing nalulutas ng LSTM (short for long short-term memory) ang ang nawawalang problema sa gradient sa backpropagation. Gumagamit ang mga LSTM ng mekanismo ng gating na kumokontrol sa proseso ng pagmememorya. Ang impormasyon sa mga LSTM ay maaaring itago, isulat, o basahin sa pamamagitan ng mga gate na nagbubukas at nagsasara.

Bakit pinipigilan ng mga LSTM ang iyong gradient na mawala ang isang view mula sa backwards pass?

Ang dahilan nito ay dahil, upang maipatupad itong constant na daloy ng error, pinutol ang gradient na pagkalkula upang hindi na dumaloy pabalik sa input o candidate gate.

Inirerekumendang: