米グーグル傘下の英ディープマインドは、多段階の反応や行動を解く「自動計画」と、さまざまな手法の中から良い手法を見つけさせる「強化学習」を融合した新しいAI(人工知能)技術「PREDICTRON」(プレディクトロン)を開発しました。これにより深層学習より高い予測性能を実現しました。
動画は以下より。
英ディープマインドが長期課題担うAI(人工知能)開発
英ディープマインドでは、AI(人工知能)が学習しながら長めの計画を立てられるように開発が進んでおりますが、既存の深層学習を使う手法より高い予測性能を実現しました。また、プレディクトロンでは、自動計画と強化学習を融合し、多段階の各段階で報酬を与えて最適な手法を見つけさせつつ、報酬を累積させるなどして学習が破綻しないようにしました。
気になる検証結果は
簡易型ビリヤードで性能を検証。四つのボールをランダムに配置し、その中の白玉を転がして他のボールをコーナーに落とします。ボールを転がす角度や速度によって壁や別のボールにどう跳ね返り、ボールが転がるかAI(人工知能)に予測させます。その結果、50回中27回でコーナーに落とすことができました。ちなみに、従来技術では10回だったそうです。
【考察】AI(人工知能)の計画力
従来のAI(人工知能)では連続的な問題を解く際に、1段階での学習を繰り返していたため、全体としての成功率が上がりづらかったそうですが、プレディクトロンでは、多段階で長めの計画を立てられるようになりました。物体の動きが正しく予測できれば、交通事故、工場での作業などの安全設備への展開も期待出来そうですね。