WEKO3
アイテム
強化学習の転移学習における転移率を用いた再利用方策学習進度の可逆性
https://kougei.repo.nii.ac.jp/records/2056
https://kougei.repo.nii.ac.jp/records/205654e46d28-eee2-4c9b-a5d4-cc4d57191604
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
|
Item type | 紀要論文 / Departmental Bulletin Paper(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2019-12-25 | |||||
タイトル | ||||||
タイトル | 強化学習の転移学習における転移率を用いた再利用方策学習進度の可逆性 | |||||
タイトル | ||||||
タイトル | Reversibility Validation of Learning Progression Using Transfer Rate in Transfer Reinforcement Learning | |||||
言語 | en | |||||
言語 | ||||||
言語 | jpn | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 強化学習 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 転移学習 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 転移率 | |||||
キーワード | ||||||
主題Scheme | Other | |||||
主題 | 転移曲面 | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | Reinforcement learning | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | Transfer learning | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | Transfer rate | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | Transfer surface | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
資源タイプ | departmental bulletin paper | |||||
著者 |
河野, 仁
× 河野, 仁× 佐藤, 弘和× Kono, Hitoshi× Sato, Hirokazu |
|||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 本論文では,強化学習における転移学習で使用される,転移率というパラメータの効果を検証する.転移率は,転移学習時の過学習状態を回避するために用いられるが,再利用方策の学習進度を疑似的にロールバックできると考えられている.本論文では実際の強化学習・転移学習シミュレーションから,学習進度をロールバックできるか効果を検証したので報告する. | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | In recent years, the robot systems with learning algorithms are deployed in the real world situation,for example, automatic driving car, warehouse robots and so on. A reinforcement learning (RL) can be contributed for increasing of intelligence of the robot system, and RL do not need the supervised data. Additionally, RL can explore the optimal solution by itself. However, the robot with reinforcement learning(called RL-agent) has probability to encounter with over fitting caused by reusing obtained policy. A transfer rate has been proposed to reduce the utilization of the policy. Moreover, the transfer rate is thought to have the effect of rolling back the learning progress of the policy to be reused. However, this effectiveness is not validated based on actual reinforcement learning and transfer learning. In this paper, the transfer rate is validated with transfer surface which is visual and quantitative evaluation method of transfer, and the transfer rate is verified the contribution for rolling back of learning progress of reusing policy for transfer learning. |
|||||
書誌情報 |
東京工芸大学工学部紀要 en : The Academic Reports, the Faculty of Engineering, Tokyo Polytechnic University 巻 42, 号 1, p. 25-30, 発行日 2019-12-25 |
|||||
出版者 | ||||||
出版者 | 東京工芸大学工学部 | |||||
ISSN | ||||||
収録物識別子タイプ | ISSN | |||||
収録物識別子 | 03876055 |