昨今、自然言語処理分野で台頭するTransformerアーキテクチャがロボット分野でも応用され始めており、注目をあびています。模倣学習のご依頼も増えてきたこともあり、弊社でも最新の技術を獲得するために、ALOHAという双腕遠隔操作システムを構築してTransformerアーキテクチャを用いた模倣学習を試すことにしました。本記事では、途中経過として片腕のリーダーフォロワーロボットの製作と遠隔操作について紹介します。
ALOHA(A Low-cost Open-source Hardware System for Bimanual Teleoperation)は、低コストかつオープンソースである双腕遠隔操作システムで、スタンフォード大学のTony Zhaoさんらによって提案されました。人間が操作するリーダーロボットと遠隔操作されるフォロワーロボットには、Trossen Roboticsのアームロボットとカスタムされたグリッパを使用しています。ロボット全体は、Dynamixelサーボモータとアルミフレームで構成されており、総額約2万ドル(1ドル150円で300万円)と安価です。ただし、位置決め精度は高価なロボットと比べると劣ります。
著者らは、TransformerアーキテクチャとAction chunkingという手法を用いることで、そのような精度の低いロボットでも物体操作タスクを達成できる精度の高い制御モデルを短い教示時間で学習により獲得することができることを示しました。
さらにGoogleの研究グループがALOHAの改良版であるALOHA2を発表しました。ALOHA2ではグリッパ部分の操作性が向上しています。
弊社はFoodlyやSciurus17などDynamixelサーボモータを使用したロボットの製作経験があるため、ALOHAを作るのは簡単です。試験的にALOHA2の右腕用のリーダーとフォロワーロボットを作成して、遠隔操作でからあげをピッキングしてみました。
試作品のためパーツの色に統一感がないですが、論文で使用されたロボットと構成を同じにしたため、GitHubで公開されているALOHAのプログラムが変更なしで動きました。動画ではリーダーとフォロワーは20センチほどしか離れていないにも関わらず、操作が難しく感じました。リーダーロボットを操作する教示者は、ある程度フォロワーロボットの遠隔操縦に慣れる必要があると感じました。
ヘッドマウントディスプレイなどを使用して、リーダーとフォロワーの視覚的な位置を一致させることで操作しやすくなると考えられます。また、定荷重バネまたは重力補償トルクを使用してロボットの自重を打ち消すことで、さらに操作性が向上すると考えられます。
次回は、左右の腕とカメラを含めた完全なALOHAを構築し、Transformerアーキテクチャを用いたモデルの学習を行います。
参考文献
- Tony Z. Zhao, Vikash Kumar, Sergey Levine, Chelsea Finn. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware. ArXiv, abs/2304.13705, 2023.
- ALOHA2 Team et al. ALOHA 2: An Enhanced Low-Cost Hardware for Bimanual Teleoperation. ArXiv, 2405.02292, 2024.