model麻豆传媒视频在线播放|久久久精品亚洲金va费免|91国产高清视频|在线观看隔壁的女孩|麻豆av永久地址久久精品|超级视频日韩国产|自拍偷拍 第十页|91黑色在线视频|谁知道麻豆传媒网站|精品亚洲国产91在线,水蜜桃影像果冰传媒,麻豆女传媒演员有哪些人,国产传媒排行

學(xué)術(shù)預(yù)告 首頁(yè)  >  學(xué)術(shù)科研  >  學(xué)術(shù)預(yù)告  >  正文

學(xué)術(shù)報(bào)告-強(qiáng)化學(xué)習(xí)原理及概述
作者:     供圖:     供圖:     日期:2020-11-19     來(lái)源:    

講座主題:強(qiáng)化學(xué)習(xí)原理及概述

主講人: 劉磊

工作單位:河海大學(xué)

活動(dòng)時(shí)間:2020年11月21日 10:10--10:50

講座地點(diǎn):騰訊會(huì)議會(huì)議ID:281 913 245

主辦單位:煙臺(tái)大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院

內(nèi)容摘要:

強(qiáng)化學(xué)習(xí)(Reinforcement Learning),,屬于一種機(jī)器學(xué)習(xí)架構(gòu),,它是通過(guò)讓智能體(Agent)不斷地對(duì)所處環(huán)境(Environment)進(jìn)行探索和開(kāi)發(fā)并根據(jù)反饋的回報(bào)(Reward)進(jìn)行的一種經(jīng)驗(yàn)學(xué)習(xí),。2016年,谷歌旗下DeepMind團(tuán)隊(duì)發(fā)布的AlphaGo以4:1的戰(zhàn)績(jī)擊敗了世界圍棋冠軍里李世紀(jì)石,引爆了強(qiáng)化學(xué)習(xí)的發(fā)展勢(shì)頭。近年來(lái),,不論在科研界還是工業(yè)界,強(qiáng)化學(xué)習(xí)發(fā)揮重要的作用,。本報(bào)告簡(jiǎn)介強(qiáng)化學(xué)習(xí)的數(shù)學(xué)原理,,以及動(dòng)態(tài)規(guī)劃、蒙特卡洛、時(shí)序差分等基本算法,。在時(shí)間允許的情況下,,將介紹DQN和Actor-Critic等深度強(qiáng)化學(xué)習(xí)算法。

主講人介紹:

劉磊,,男,,1983年06月,博士,,副教授,,博士生導(dǎo)師。主持國(guó)家自然科學(xué)基金面上項(xiàng)目一項(xiàng),,國(guó)家博士后基金特別資助項(xiàng)目一項(xiàng),、國(guó)家博士后基金面上項(xiàng)目一項(xiàng)、江蘇省博士后資助計(jì)劃一項(xiàng),;完成國(guó)家自然科學(xué)青年項(xiàng)目一項(xiàng),。入選2018年度江蘇省青藍(lán)工程優(yōu)秀青年骨干教師培養(yǎng)對(duì)象,2018年度河海大學(xué)首屆大禹學(xué)者人才計(jì)劃第三層次,。以第一作者或通訊作者在《IEEE Transactions on Automatic Control》,、《IEEE Transactions on Neural Networks and Learning Systems》、《IEEE Transactions on Systems, Man, and Cybernetics: Systems》,、《Automatica》,、《Science China Information Sciences》、《Systems & Control Letters》等SCI期刊上發(fā)表論文20篇,。