by 藤井 慶輔, 筒井 和詩, アトム スコット, 中原 啓,
, 河原 吉伸Abstract:
実世界の生物学的マルチエージェントを強化学習でモデル化する場合、ソースとなる実世界のデータとターゲットとなる強化学習環境の間にドメインギャップがあるため、ターゲットダイナミクスを未知のソースダイナミクスに適応させることが必要である。そこで本研究では、実世界のdemonstrationから、マルチエージェント強化学習におけるドメイン適応のための方法として、ソースの行動をターゲットの行動に適応させた情報を教師として用いる強化学習手法を提案する。2対1の追跡-逃避や、サッカーの2対2および4対8などの限定的な状況において、ベースラインと比べてデータを模倣し、かつ報酬を獲得できるエージェントを学習したことを示した。
Reference:
藤井 慶輔, 筒井 和詩, アトム スコット, 中原 啓, 武石 直也, 河原 吉伸:実世界マルチエージェントの手本を用いた強化学習における適応的な行動の活用, In 第38回人工知能学会全国大会 (JSAI), 浜松, 2024.
Bibtex Entry:
@conference{fujiiJSAI2024, title = {実世界マルチエージェントの手本を用いた強化学習における適応的な行動の活用}, author = {慶輔 藤井 and 和詩 筒井 and スコット アトム and 啓 中原 and 直也 武石 and 吉伸 河原}, labauthor = {直也 武石}, url = {https://confit.atlas.jp/guide/event/jsai2024/subject/1E5-GS-5-04/advanced}, year = {2024}, abstract = {実世界の生物学的マルチエージェントを強化学習でモデル化する場合、ソースとなる実世界のデータとターゲットとなる強化学習環境の間にドメインギャップがあるため、ターゲットダイナミクスを未知のソースダイナミクスに適応させることが必要である。そこで本研究では、実世界のdemonstrationから、マルチエージェント強化学習におけるドメイン適応のための方法として、ソースの行動をターゲットの行動に適応させた情報を教師として用いる強化学習手法を提案する。2対1の追跡-逃避や、サッカーの2対2および4対8などの限定的な状況において、ベースラインと比べてデータを模倣し、かつ報酬を獲得できるエージェントを学習したことを示した。}, booktitle = {第38回人工知能学会全国大会 (JSAI), 浜松}, lang = {ja} }