マスクの新しいアイデア:Optimusは動画を見ることで服をたたむことを学べるかもしれない
テスラは人型ロボット「Optimus」に新たな「教材」を導入しており、モーションキャプチャスーツやリモート操作に依存せず、ビデオを見て学習させる方法に切り替えています。
Tesla(TSLA.O)は、その人型ロボットの訓練に長年実証された設計図を活用している。事情に詳しい関係者によると、この電気自動車メーカーは6月末、Optimusプロジェクトが「ピュアビジョン」アプローチにより一層注力することになると従業員に伝えたという。
これまで、TeslaはモーションキャプチャースーツやVRヘッドセットを使って人間オペレーターのデータを記録し、ロボットを遠隔操作していた。現在、同社は主に作業員がタスクを実行する様子をビデオ撮影することでロボットを訓練する方針に転換している。例えば、物を拾ったりTシャツを畳んだりする方法を教えるといった具合だ。
関係者によれば、モーションキャプチャースーツや遠隔操作を廃止することで、チームはデータ収集の規模をより迅速に拡大できるようになると会社は説明している。
この転換は、Teslaのロボット戦略における大きな調整を示しており、OptimusをCEOのElon Muskが長年主張してきた信念、すなわちAIはカメラだけで複雑なタスクを習得できるという考えと一致させるものだ。Teslaは自動運転ソフトウェアの訓練にも同様の手法を用いてきた。
この変化は、Optimusプロジェクトの責任者であるMilan Kovacが辞任した直後に起きた。関係者によると、AI部門責任者のAshok Elluswamyがこのプロジェクトを引き継いだという。
モーションキャプチャーや遠隔操作はロボット業界の標準的な手法である。例えば、ロボット業界のリーディングカンパニーであるBoston Dynamicsも、Atlasロボットの訓練に遠隔操作を用いていた。訓練中、作業員はモーションキャプチャースーツを着用して様々なタスクを実行し、そのデータがロボットに入力される。モーションキャプチャースーツはロボットの遠隔操作にも利用できる。
Teslaが今後、モーションキャプチャーや遠隔操作を再び優先するのか、あるいはビデオデータを活用してこれまで収集した情報を基に開発を続けるのかは、現時点では不明である。
Institute for Human and Machine Cognitionの上級研究科学者であるRobert Griffinは、大量の遠隔操作データによってロボットは環境との物理的な相互作用を通じて学習できると述べている。彼は、ビデオデータだけに頼るのでは、ロボットが映像内の動作を現実世界に正確に転換するのは難しいと指摘する。
「ビデオデータだけでは、直接的な物理的相互作用がない」と彼は語った。
Tシャツを畳む・物を拾う
Muskは2021年に初めて、TeslaがOptimusという人型ロボットの開発を計画していると発表した。この億万長者は、最終的にこのロボットが工場労働や介護などのタスクをこなせるようになると述べている。
昨年、同社は「データ収集オペレーター」を募集していた。この職種は、基本的な家事タスクを実行・記録することが含まれていた。求人情報によれば、オペレーターは長時間モーションキャプチャースーツやVRヘッドセットを着用する必要があった。
6月末まで、プロジェクトには遠隔操作やモーションキャプチャースーツを使ったOptimusの訓練も含まれていた。関係者によると、作業員は衣服やロボット本体の問題に多くの時間を費やしており、それがチームのデータ収集量を制限していた。
訓練方法の転換以降、作業員はTesla自作の5台のカメラを使って自分の動作を記録し始めた。関係者によれば、これらのカメラは作業員が装着するヘルメットや重いバックパックに取り付けられ、各方向を撮影し、AIモデルに正確な環境位置データを提供する。
Florida A&M UniversityとFlorida State Universityの合同工学部ロボット研究所のディレクターであるChristian Hubickiは、これら異なる角度のカメラによってTeslaは「関節や指の位置」など、より細かなディテールを取得でき、ロボットの位置特定も向上する可能性があると述べている。彼は、これらのビデオが以前遠隔操作で収集したデータを補完するためにも使われる可能性があると付け加えた。
作業員は訓練時に特定のタスク指示を受け、特に手の動作については、人間にできるだけ近い動きになるように求められる。ある従業員は、同じ単純なタスクを何ヶ月も繰り返し実行することもあると述べている。
Sheffield Universityのロボット専門家Jonathan Aitkenは、TeslaはOptimusが様々なタスクを学習できるよう、汎用的な動作を通じて学ばせる方法を見つける必要があるかもしれないと述べている。
「この規模では、汎用的な動作セットがなければ、すべてのタスクを訓練するのに非常に長い時間がかかるだろう」とAitkenは語った。
彼はまた、TeslaはPhysical Intelligence社のような戦略を採用する可能性があると付け加えた。同社はロボットに大量のデモデータを入力することで、単一タスクを丸暗記させるのではなく、移転可能なスキルを学ばせ、柔軟に応用できるようにしている。
「非常にTeslaらしいロボット開発」
この新戦略は、Teslaが自動運転ソフトウェアを訓練する方法と一致している。他の自動運転企業がLiDARやミリ波レーダーなどのセンサーを使ってソフトウェアを訓練しているのに対し、Teslaは主にカメラに依存している。
同社は、8~9台のカメラを搭載した数百万台のTesla車両からデータを収集している。Muskは、Teslaが中国で自動運転支援ソフトウェアをリリースしたのは、公開されたアジアの道路映像を使ってAIシステムを訓練した結果だと述べている。
Muskは今年1月の決算説明会で、「Optimus人型ロボットの訓練には、最終的に車両の少なくとも10倍のデータが必要になる可能性がある」と認めている。
「これは非常にTeslaらしいロボット開発のやり方だ。他のどの企業もこの規模で挑戦していない」とAitkenは語る。「彼らには車両の訓練と同じくらい膨大なデータ量が必要になるだろう。」
Oregon State UniversityのAI・ロボット専門家Alan Fernは、Optimusの訓練はTeslaにとって自動運転車の開発よりもさらに困難だと述べている。
「運転は一つのタスクに過ぎない」と彼は言う。ビデオ学習に主に依存する場合、「ロボットはビデオで何が起きているかを理解し、タスクを完遂するスキルも持たなければならない。観察だけで学べることもあるが、シミュレーターや現実で実際に練習しなければならないこともある。」
免責事項:本記事の内容はあくまでも筆者の意見を反映したものであり、いかなる立場においても当プラットフォームを代表するものではありません。また、本記事は投資判断の参考となることを目的としたものではありません。
こちらもいかがですか?
大手資産運用会社が高リスクのTRUMP ETFを申請
Canary CapitalのTRUMP ETF申請は、これまでの試みとは異なり、よりリスクの高い構造を採用しており、2025年にSECの承認に関する重要な試金石となる見込みです。

Celestia(TIA)は90%の下落に直面:サポートは維持されるか、それともさらなる損失が迫るのか?
SharpLinkは1週間で56,533ETHを追加し、Ethereum準備金が36億ドルを超える

dYdXがリブランディング、Telegramでパーペチュアル取引によるソーシャルトレーディングを目指す

トレンド
もっと見る暗号資産価格
もっと見る








