女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

一種解決連續(xù)問題的真實在線自然梯度行動者-評論家算法

大小:0.85 MB 人氣: 2017-12-19 需要積分:0

  策略梯度作為一種能有效解決連續(xù)空間決策問題的方法被廣泛研究.然而,由于在策略估計過程中存在較大的方差,因此基于策略梯度的方法往往受到樣本利用率低、收斂速度幔等限制.針對該問題。提出了真實在線增量式自然梯度行動者一評論家算法(TOINAC).TOINAC算法采用優(yōu)于傳統(tǒng)梯度的自然梯度,在真實在線時間差分(TOTD)算法的基礎(chǔ)上。提出了一種新型的向前觀點,改進了自然梯度行動者一評論家算法.在評論家部分,利用TOTD算法高效性的特點來估計值函數(shù):在行動者部分。引入一種新的向前觀點來估計自然梯度。再利用資格跡將自然梯度估計變?yōu)樵诰€估計。提高了自然梯度估計的準確性和算法的效率.將TOINAC算法與核方法以及正態(tài)策略分布結(jié)合,解決連續(xù)空間問題.最后。在平衡桿、Mountain Car、以及Acrobot等連續(xù)問題上進行了仿真實驗。驗證算法的有效性.

一種解決連續(xù)問題的真實在線自然梯度行動者-評論家算法

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

一種解決連續(xù)問題的真實在線自然梯度行動者-評論家算法下載

相關(guān)電子資料下載

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關(guān)規(guī)定!

      ?
      主站蜘蛛池模板: 信宜市| 湖口县| 堆龙德庆县| 开平市| 噶尔县| 长海县| 商丘市| 富源县| 永登县| 百色市| 乌海市| 咸丰县| 仪征市| 思南县| 固阳县| 内乡县| 利津县| 孟州市| 黄骅市| 响水县| 阳高县| 梁平县| 山丹县| 潞城市| 阿鲁科尔沁旗| 通州市| 吉木乃县| 陕西省| 酉阳| 广灵县| 太原市| 汉阴县| 丽水市| 巫山县| 锡林郭勒盟| 保靖县| 韶山市| 安吉县| 华亭县| 维西| 英德市|