Palagi bang nagtatagpo ang value iteration?

Talaan ng mga Nilalaman:

Palagi bang nagtatagpo ang value iteration?
Palagi bang nagtatagpo ang value iteration?
Anonim

Tulad ng pagsusuri sa patakaran, ang pag-ulit ng halaga ay pormal na nangangailangan ng walang katapusang bilang ng mga pag-ulit upang eksaktong mag-converge sa. Sa pagsasagawa, humihinto kami kapag nagbago ang value function nang kaunti lang sa isang sweep. … Ang lahat ng mga algorithm na ito ay nagsasama-sama sa isang pinakamainam na patakaran para sa mga may diskwentong finite MDP.

Deterministic ba ang value iteration?

Gayunpaman, ang value iteration ay isang straight-forward generalization ng deterministic case. Maaaring ito ay mas matatag sa mga dynamic na problema, para sa mas mataas na kawalan ng katiyakan, o malakas na randomness. KUNG walang pagbabago sa patakaran, ibalik ito bilang pinakamainam na patakaran, ELSE pumunta sa 1.

Pinakamainam ba ang pag-ulit ng halaga?

3 Pag-ulit ng Halaga. Ang value iteration ay isang paraan ng pag-compute ng pinakamainam na patakaran sa MDP at ang value nitoAng pag-save ng V array ay nagreresulta sa mas kaunting storage, ngunit mas mahirap matukoy ang pinakamainam na pagkilos, at kailangan ng isa pang pag-ulit upang matukoy kung aling pagkilos ang nagreresulta sa pinakamalaking halaga. …

Ano ang pagkakaiba sa pagitan ng pag-ulit ng patakaran at pag-ulit ng halaga?

Sa pag-ulit ng patakaran, magsisimula kami sa isang nakapirming patakaran. Sa kabaligtaran, sa pag-ulit ng halaga, magsisimula tayo sa pamamagitan ng pagpili ng function ng halaga. Pagkatapos, sa parehong mga algorithm, paulit-ulit kaming bumubuti hanggang sa maabot namin ang convergence.

Ano ang halaga ng pag-ulit?

Sa pangkalahatan, kinukuwenta ng algorithm ng Value Iteration ang pinakamainam na function ng value ng estado sa pamamagitan ng paulit-ulit na pagpapahusay sa pagtatantya ng V (s). Sinisimulan ng algorithm ang V(s) sa mga random na halaga. Paulit-ulit nitong ina-update ang mga value ng Q(s, a) at V(s) hanggang sa magtagpo ang mga ito.

Inirerekumendang: