UC Berkeleyは高度なAIでロボットの頭脳を開発、ピッキングロボがアマゾン倉庫で仕分け作業をする日

2020年1月、サンフランシスコでAIのカンファレンス「RE•WORK」(#reworkAI)が開催された。「Deep Learning Summit」(#reworkDL)という分科会でロボティックスの最新技法が議論された。ピッキングロボ(商品仕分け作業ロボ)に焦点をあて、技術開発の歴史を振り替えり、ロボットの頭脳を構成するAI技法の進化について講義された。AIの進化がロボットの機能や性能を押し上げ、ピッキングロボが人間の技能を凌駕する日が見えてきた。

出典: Ken Goldberg

ピッキングロボ

このセッションではカリフォルニア大学バークレー校のKen Goldberg教授(上のグラフィックス、中央の人物)が「The New Wave in Robot Grasping」と題して講演した。講義ではピッキングロボがオブジェクトを掴む技法について、それを制御するAIにフォーカスし、技術進化の過程や開発思想が示された。ピッキングロボとは商品を仕分けするロボットで、アームの先端に装着されたグリッパーで商品を掴み、これを別のトレイに移す作業をする(下の写真)。この際、グリッパーは異なる形状のオブジェクトをいかに正確に速く掴むことができるかがカギになる。

ロボット開発の流れ

ピッキングロボの性能や機能はロボットの頭脳であるAI技法により決まる。AIの進化によりロボットがインテリジェントになり、オブジェクトを上手く掴むことができるようになる。第一世代は「数値解析」というアプローチで、数学的にピッキングの問題を解いてきた。第二世代は「経験則」で、ロボットが繰り返し掴み方を学習し技量をあげてきた。現在は第三世代で、両者を組み合わせた「複合型」の開発思想を取っている。

出典: AUTOLAB

第一世代:Robotics 1.0

第一世代は「数値解析」でオブジェクトの形状や重心などを把握し、ロボットがこれを掴んだ時の成功確率を計算するアプローチを取る(下の写真)。計算して成功確率が高い個所をロボットが掴む(下の写真では右端)。しかし、オブジェクトの形状は複雑で、掴み方は沢山ある。このため、この手法では計算量が膨大になり精度が上がらない。(このネットワークは「Dex-Net 1.0」と呼ばれ、Goldberg教授らにより開発され、GitHubに公開されている。)

出典: Jeffrey Mahler et al.

第二世代:Robotics 2.0

このため、第二世代ではロボットがオブジェクトの掴み方を繰り返し学習し技量をあげるアプローチ「経験則」が取られた。ここでは深層強化学習(Deep Reinforcement Learning)が使われ、ロボットは膨大な数のピッキングを繰り返す。この手法の代表がGoogleの「Arm Farm」で、複数のロボットを並列に稼働させ学習効率を上げた(下の写真)。しかし、この手法ではAIが技量を学習する速度が遅く、業務で使えるようになるには長い年月を要す。

出典: Google

第三世代:Robotics 3.0

第三世代では両者の技術を統合して技量をあげるアプローチ「複合型」が取られた。ここではコンピュータビジョン(CNN)が重要な役割を果たし、3Dカメラが捉えたオブジェクトを立体的に把握し、掴む場所を特定する(下の写真)。具体的には、オブジェクトの形状を把握して、数値解析の手法で掴む場所の候補を把握する。次に、コンピュータビジョンはこれらの候補を解析し、掴むことに成功する確率を計算する。ロボットは成功確率の高い場所を掴む。このAIは数多くの3Dモデルで掴み方を学習しており、経験から最適な場所を特定できる。(このネットワークは「Dex-Net 2.0」と呼ばれる。)

出典: Jeffrey Mahler et al.

吸引方式のグリッパーにも対応

通常のグリッパーに加え、吸着パッド型のグリッパー(Suction Cup Gripper)についてもAIが開発されている。このモデルはネットワークが吸引するために最適な場所を特定する。モデルはオブジェクトの表面に吸引する場所を示す(下の写真)。緑色が安定して掴めるポイントで、赤色が不安定なポイント示す。吸着パッド型のグリッパーは緑色のポイントに当てられ、ここを吸引してオブジェクトを持ち上げる。(このネットワークは「Dex-Net 3.0」と呼ばれる。)

出典: Jeffrey Mahler et al.

最新モデルは二種類のグリッパー対応

最新モデルは異なるグリッパーで構成されたロボットハンドを制御することができる。ピッキングロボは通常のグリッパー(Parallel-Jaw Gripper)と吸着パッド型グリッパー(Suction Cup Gripper)から構成され(下の写真)、AIはこれらグリッパーがオブジェクトを掴む場所を算定する。ロボットは最適なグリッパーを使ってオブジェクトを掴むことができ精度と速度が向上する。このネットワークはオブジェクトを掴む精度は95%以上で、毎時300個のピッキングができる。(このネットワークは「Dex-Net 4.0」と呼ばれる。)

出典: Jeffrey Mahler et al.

応用分野 

ピッキングロボはEコマースの配送センター(下の写真)に適用されることを想定している。ここでは人間がトレイから商品を取り出し、別のトレイに移す作業を繰り返す。この作業をピッキングロボが代行する。特に、アマゾンなどがこの技術に注目しており、ピッキングロボを導入し処理効率を向上させることを計画している。ただ、ロボットが人間の仕事を奪うという問題が発生するため、導入には雇用対策も求められる。一方、商品を移し替えるような単純作業は人気がなく、常に人手不足の状態で、これをピッキングロボが解消すると期待している。

出典: Seattle Times  

ロードマップ

ピッキング技術はこれで完成ではなく、ピッキングロボは奇妙な形状をしたオブジェクトや初めてみるオブジェクトを正しく掴めるかが今後の課題となる。異なる形状のオブジェクトを正しく掴むことがロボット技術のグランドチャレンジで、各社がピッキング技術開発でしのぎを削っている。AIの進化でロボットのピッキング精度と速度が大きく向上し、Dex-Net 4.0のケースではロボットが毎時300個のオブジェクトを掴むことができる。人間の能力は毎時400-600個で、近いうちにピッキングロボがこれを上回るといわれている。ピッキングロボをEコマースの配送センターに適用することが視界に入ってきた。