研究テーマ

本研究室では、「人が機械にあわせる」のではなく、「機械が人にあわせる」ための技術を実現するために、システムを制御するソフトウェアに関する研究を行っています。 人工知能や機械学習などの情報分野の技術を基盤に、あたらしい機械知能のありかたを探求しています。

いくつかの研究事例についてご紹介します。

強化学習

学習者が主体的に試行錯誤をしながら適切なふるまいを学ぶ、という学習の枠組みとして強化学習が知られています。 この方法は、動物の餌付けのように、機械を教育することができます。 つまり、設計者は機・Bの具体的な振る舞いを設計することなく、「よかった」ということを学習主体に伝えるための信号である「報酬」のみを設計するだけでよくなります。

本研究室では、強化学習の理論と応用についての研究を行っています。

不完全知覚環境下での学習手法の提案

cvrl-image

十分な情報が得られない環境下での意思決定は困難なものです。 強化学習ではこのような環境のことを不完全知覚環境と呼んでいます。 ロボット制御問題においては、センサの故障・欠損が生じる場合がこれに相当します。

当研究室では、不完全知覚環境における学習を可能とするために、複素強化学習というモデルを提案しています。 これまで用いられてきた、行動の良さを表す価値の概念に、時系列情報を含める方式です。

脚式四輪車両への適用

state-space-image

強化学習には、タスクが複雑であるときに、学習に必要な試行錯誤の数が膨大になってしまうという課題があります。

転移学習とよばれる機械学習の手法を援用して学習の高速化を図り、脚式四輪車両への適用を行いました。 ハンドコーディングで記述できる簡単な制御方式から学習を開始し、これを改善するような行動を獲得できることを確認しました。

状態空間の自己組織化手法

state-space-image

学習者に振る舞いを学習させようとするとき、とりうる状態の候補(=状態空間)の数が 問題になります。 特に、センサの数が増えると、状態空間の大きさは爆発的に増えてしまうので、この問題は深刻になってしまいます。

当研究室では、特にレンジセンサをつかうロボットのための状態空間の構築手法として 周囲の障害物の状況を俯瞰的な画像をクラスタリングする手法を提案しています。 この方法で状態空間を構築すると、画像のうえで似た状態が近くにくるので、学習にも便利です。

そのほかに取り組んできたこと

マルチカーエレベータの制御問題

elevator

一本のシャフトに複数のかごがあるという、ちょっと変わったエレベータの問題です。 共同研究で挑み、賞をいただきました。

強化学習の LEGO Mindstorms への応用

lego

専攻公開などのために製作したデモ用の作品です。 ボールをけってゴールにあてる動きを学習します。 脚の形や、路面の傾きにあわせた戦略をちゃんと学習してくれます。

コンペティション問題への挑戦

ysc

Infinite Mario、Ms.PacmanやYellow Submarine Challangeなど、学会が主催するコンペティション問題にチャレンジしたりもしてます。