日立高浦 lsiシステムワークショップ20190507 pptx · ~2020...

1

AIチップを用いたエッジコンピューティングとスマートセンシング

高浦則克[email protected]

2019年5月13日

株式会社⽇⽴製作所研究開発グループエレクトロニクスインベーションセンタ

LSIとシステムのワークショップ2019

2

目次IT X OT 融合を実現するAI／スマートセンシングにおける、自他社や国家プロジェクトでの取り組みを、End-to-End接続して価値創造する観点で紹介する。� はじめに� スマートセンシングとAIチップのユースケース� AIチップの技術動向

本発表のスライド8~10ページの内容は技術研究組合ＮＭＥＭＳ技術研究機構スマートセンシング研究所による、国⽴研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の委託業務の結果得られた成果である

3

はじめに半導体技術の歴史的変換点

End of Dennard scaling End of Moore’s Law2025

集積度

CPU単体ｺｱ性能

ﾎﾟｽﾄﾑｰｱ

時代

(2025年～)動作周波数

消費電力

ｺｱ数

半導体の高集積化を先導してきたムーアの法則が終焉する

4

ポストムーア時代の変化点~2020年代: GPU/FPGA/ASICを適材適所で活用するAI向けコンピューティング普及~2040年代: 脳型処理や最適化問題向け等に革新的技術が普及すると期待

‘80s ‘00s ‘20s ‘40s

コア・シ

ステム性

能(lo

g)CMOS鈍化, 革新技術普及までDomain-specific対応

Loihi(Intel),TrueNorth(IBM),Tangle Lake(Intel),Bristlecone(Google),IBM-Q

TPU(Google),Nervana(Intel),IPU(Graphcore), DFP(Denso), CMOSアニーリング

5

エッジコンピューティングとAI解析IoTで生成される膨大なデータを現場近傍で圧縮・変換してAI解析するエッジコンピューティングが注目されている

エッジフォグ

画像

センサ音響

クラウド制御・フィードバック

AI解析ITOT

IoTデータ

出典 : ⽇⽴製作所資料より抜粋

6

エッジコンピューティングの構成

分類システム進化AI 人対象AI 物対象AIOT制御対象プロセス業務人間空間(変化は限定的) 空間(常時変化)

ユースケース AT/Hによるプロセス改善/

業務改善

大規模監視作業監視溶接ロボ完全自動運転自動施工協働ロボ

制御周期〜⽇〜分〜秒、〜ミリ秒〜秒、〜ミリ秒学習の更新周期〜⽉、〜年 ← ← 〜分、〜秒

アーキテクチャ

クラウド

エッジ現場

装置、人空間・物体・人(制限変化) 空間・物体・人(自由変化)

学習

認識制御理解判断

構造化データ

学習（地図）学習

認識

管理管理

エッジで理解・学習するリアルタイムAI、及び分散するエッジ群の運用/構成管理によって現場完全⾃動化システムの全体事業化を実現する

制御理解判断

管理






学習学習学習追加学習

認識制御理解判断認識制御理解判断

認識認識認識

7

エッジコンピューティングのユースケース

都市ロボット・自動運転スマートファクトリ提供価値大規模映像監視非定常作業中央制御超省電⼒ターゲットカメラ20台/サーバ

動画> 10 fps リアルタイム地図0.1秒追加学習 0.1ms/W

通信<128Mbps工場群監視

端末500µW以下機器設置容易

概要

GPU ✔ ✔ ✔FPGA ✔ ✔ ✔ASIC ✔ ✔ ✔Memory ✔ ✔ ✔MCU ✔ ✔⾃⽴電源 ✔

センサや⾃⽴電源に加えて、GPU/FPGA/ASIC/MCU/Memoryの性能を⾒極めて、新技術・製品の登場に注目して適材適所で活⽤する

理解

認識制御

判断

センサ無線端末

コンセントレータ

工場3駅プラットフォーム

工場2工場1

8

スマートセンシング工場全体⾒える化のボトルネックの解消

経営情報としてフィードバック

スマートセンサ端末センサ測定の自動調整を実現

測定パラメータ

センサデータ

ＤＢ

クラウド分析・管理

学習型コンセントレータデータの特徴を自動で判断し有価情報を収集

LTE

無線の帯域制限で画像・振動センサのrawデータ送信が困難⇒ センサデータを基に測定条件を自動調整して解決

LTE128kbpsで扱えるセンサの数(rawデータ通信)画像(30KB/秒) ：0.53個振動(400KB/分)：2.4個温度・電流・ガス等

(数十B/秒) ：250個エナジーハーベスタ500uW

9

無線スマートセンサ端末用いたシステム� 学習型機能に対応し、動的センシングを実現� コンセントレータの指示でセンサ端末がデータ計測と通信

ケースへの組み込み

赤外線アレーセンサ

通信確認用LED

⾃⽴電源⽤⼊⼒端⼦

電源ON確認用LEDマイクロUSB

充電端子

＜スマートセンサ端末＞� 3V駆動、920MHz無線モジュール

10

ロボットアームの稼動状態の判定� センサパラメータを自動調整し関連性の高い成分を測定� 稼働状態の判定に必要なデータのみを測定して無線収集

⇒ほぼリアルタイム(>1回/秒)モニタリングを実現

電流センサ

音センサ

スコア

データ送信

データ取得指示

サンプリング 1HZ

11

⾃動⾞⽣産⼯場Jeep Wrangler KTPO(KUKA Toledo Production Operation) 828台の⾞をロボット259台で毎日生産、主作業は組⽴、溶接、運搬

ロボット1台当たりのベクトル数: 60、ロボットデータのサンプリング：50Hz単位時間当たり処理 ⇒ 3k Ops/sec (~100kbps, 1GB/日)出典 : “KUKA-Industrie-4.0.pdf”

ロボット制御(PLC)

ロボット

動作計画UIセンサ動作制御軸位置制御サーボドライブ速度制御トルク制御

ツール

ツール制御センサ論理制御サーボドライブ速度制御トルク制御

ロボット

ツールPLC

12

クラウドでの中央管理・解析⾒える化・データ保存クラウドに集約した全ての⼯場データを運⽤管理して解析⾒える化

ライン1

ロボット2700台

ライン45本

クラウド1ヶ

工場４ヶ所

解析⾒える化

アプリストア GUI&APIConfigストア解析ダッシュボード運用管理

アプリAアプリB アプリC

100Kbps, 1GB/日/ロボット(Rawデータ)

ハイエンドハードウェア

ミッドレンジハードウェアOS

AI解析アプリショップ135箇所

(ロボット20台当たり1台)

2Mpbs, 20GB/日/ショップ(Rawデータ)

667Kpbs, 6.7GB/日/ショップ(AI解析後データ)ゲートウェイ

90Mbps/工場3.6TB/日/4工場(AI解析後データ)270Mbps/工場(Rawデータ)

出典 : Fog World Congress 2018 Nebbiolo Technologies 社講演資料を参考に作成

13

AI解析と⾒える化センサフュージョンによる特徴量抽出をエッジで実⾏しデータを圧縮1/3

2Mpbs, 20GB/日/ショップ(Rawデータ)

667Kpbs, 6.7GB/日/ショップ(AI解析後データ)解析⾒える化

Close Loop ActionInsight Extraction (Reactive,

Realtime, Predictive, Prescriptive)Data Reduction, Compression

Extraction, Cleansing, Homogenization

AI解析前データ（Rawデータ）

出典 : Fog World Congress 2018 Nebbiolo Technologies 社講演資料を参考に作成AI解析前後のデータとして模擬的に本資料のスライド「学習適⽤例② ロボットアームの稼動状態の判定」を引用

AI解析後データ

歪センサ (50Hz)電流センサ(1Hz)

制御

認識

理解判断

管理

学習

60k Ops/sec per AI

ゲートウェイCPU 4 core Atom

ストレージ 32-128Gメモリ 8G

ツール制御ロボット制御ショップ安全人安全

14

リアルタイムAI完全⼯場⾃動化には新しい非定常・非定型物体認識が必須

定型作業ロボット非定型・協創ロボット

環境理解< 100ms理解

理解：環境理解20分

参照参照

認識制御

判断

認識制御

判断追加学習1ms

従来リアルタイムAI

点群抽出カメラ 1カメラ 2

カメラ 3カメラ 4

アップデート

A1

A2

A3

A4

� 回転⾏列による積算� ノイズ除去した3D座標� ⼤量の距離計算

マッチング評価

点群抽出点群抽出点群抽出

フュージョン

⾏列積算と距離計算がカギ⇒メモリ量や処理要求の定量化要

複数視野から収集するカメラデータの解析はノイズや妨害に弱い

PrincetonUniv.

IntelLab Mitsubishi

Object Complicated Complicated Simple

Year 2017/5ICRA’17

2018/1ICCV’18 2018/3

HW CPU (Intel 20-thread 3.3GHz) N.A.

Overalltime 7800ms 980ms 3.5ms

15

大規模カメラ監視（ヒト認識の要求仕様）

機能 CNNモデル要求される処理 [TOP]

要求されるメモリ [MB] *FP32bit

Object detection Faster RCNN 5.2 3547Attribute estimation ResNet-50 1.2 535Feature extraction ResNet-18 0.6 455

Total (5⼈ヒト認識) 7.0 4.5GB

考察①2 台のカメラによるヒト5⼈の認識⇒ 7TOPS for 1fps with 4.5GB (FP32)⇒ 21TOPS for 3fps(GPU TITAN, 22TOPS 12GB)②20 台のカメラ⇒ 210TOPS, 45GB.⇒ INT8 処理で 11GB にメモリ削減.(GPU 一式, 110TFLOPS, 12GB, 250W).

カメラ台数とフレームレート増による、サーバー台数と電⼒増⼤が厄介

出典 : ⽇⽴製作所資料 “Video Analytics for public safety solutions”フィジカルソリューション http://info.hitachiics.co.jp/product/pss/index.html

課題 : 1 GPU (GeForce 1080 Ti) でカメラ3 台/server, ~ 2 fps

16

AIチップの技術動向

2012 IEEE Rebooting Computing Initiativeがスタート2014 IBMがTrueNorth発表2016 GoogleがTPU発表 (TPU2.0 in 2017, TPU3.0 in 2018)

HPがThe Machine(ヘテロマルチ+160TBメインメモリ)公開2017 AppleがiPhone用A11チップにNeural Engine搭載

Intelが Loihi発表2018 GoogleがEdge TPU発表（エッジ向け）

MSがProject Brainware発表（Intel FPGA）AWSがGravition/Inferentia発表FPNがMN-core発表 (エクサスケール)IBMが8-bit AIチップ発表（NeuroIPS/IEDM）QualcommがSnapdragon855発表（Android向け）

2019 NVIDIAがJetson nano 発表（エッジコンピューティング向け）

専⽤チップによるサービス基盤強化、エッジコンピューティングへ対応の流れ

https://cloud.google.com/edge-tpu/

https://projects.preferred.jp/mn-core/

MN-core⻑辺30mm

Edge TPU1セント硬貨より小さい

17

エッジ向けSystem-On-Module (SOM)テクノロジースタックと連携するHWモジュールの販売が開始される

https://up-shop.org/home/270-up-squared.html 、 https://coral.withgoogle.com/ , https://www.nvidia.com/ja-jp/autonomous-machines/embedded-systems/jetson-nano/ https://www.thundercomm.com/app_en/product/1529550806790727

Intel Google NVIDIA Qualcomm

ボード写真

製品シリーズ OpenVINO Edge TPU Jestson nano Thundercomm処理速度ー 4TOPS 472GOPS ー消費電⼒ー 2W 5W/10W ー精度ー INT8 FP16 ー販売価格 $149 $149.44 $99 ー備考 Linux&OpenVINO

インストール済み Cloud TPUを補完 CUDA利⽤可能 Snapdragon845

90 mm 85 mm 70 mm

18

NN モデルサイズオリジナルまたは10倍以上サイズ圧縮してエッジに搭載

オリジナル圧縮1.72MB⇒44KB

240MB⇒6.9MB 91MB⇒4.2MB 97MB⇒5.8MB

550MB⇒11.3MB

Inception-V3 ResNet-50

LeNet-5

出典： https://qiita.com/yu4u/items/7e93c454c9410c4b5427 、ISSCC 2019 Short Course F4 Intelligence at the Edge: How Can We make machine Learning More Energy Efficient “Bandwidth-efficient Deep Learning with Algorithm and hardware Co-design” スライド14をベースに作成、

19

AIモデルとメモリ容量

出典： ISSCC 2019 Short Course F4 Intelligence at the Edge: How Can We make machine Learning More Energy Efficient “Mixed-Signal Circuits for Inference at the Edge” スライド11をベースに作成

STMPCM

東北⼤MRAM Intel

ReRAMIntel

MRAM

モデルサイズ [B]

推論

当たり

のエネル

ギー[J

]

100

10-5

10-10

TiFRAM

S社MRAM

XX

X

XX

JmJ

µJ

nJpJ108107106105104103102 109

Applications・ Wake-Up Triggers・ Keyword Spotting・ Eye Tracking・ Activity Monitoring・ Voiceprint Biometrics・ Microrobotic Vision

顔検出SVM

数認識EACB

自動運転ResNet-50HD

画像分類1000 classesMobileNet v1画像分類10 classesBinary CNN

10111010 1012

SLCNAND

QLCNAND

3DXpoint

IBMPCM S社

DRAM

オンチップオフチップメモリ・ストレージ

複数のAIモデルやアプリに対応する容量のメモリ・ストレージが必要HP The Machine

160TB

RNN・Language Model・Neural Programmer

大規模カメラ監視Faster CRNN+ResNet-50+ResNet-18

20

AIチップやメモリ、ストレージの課題オフチップメモリやストレージの容量/帯域/レイテンシが追いつかない

CPU Host(~1TFLOPS)

DDR MemorySystem

(~128 GB)

Storage(~100 TB)

GPU(>>1TFLOPS)

HBM2(~32 GB)

HBM2(~32 GB)

16GB/s

100GB/s

GPU(>>1TFLOPS)

80GB/s

80GB/s

80GB/s

256GB/s

256GB/s

INC2019, IRC 2019 Keynote speech 2 by Prof. Wen-mei Hwuをベースに作成、 Y. H. Chen,ISSCC’16

従来アーキテクチャのイメージ

コンパクト化や省電⼒化がエッジアーキテクチャに求められる

21

オンチップメモリ eNVMIoT/エッジ向けに2019年度に学会発表・量産・出荷予定

https://www.st.com/content/ccc/fragment/multimedia/epresentation/technology_pres/group0/63/51/83/98/d4/11/40/7b/IEDM_conference_Dec2018_ARNAUD/files/IEDM_conference_Dec2018_ARNAUD.pdf/jcr:content/translations/en.IEDM_conference_Dec2018_ARNAUD.pdfhttps://eetimes.jp/ee/articles/1902/22/news101.html, https://eetimes.jp/ee/articles/1903/11/news020.html

ベンダー STMicro Intel Samsungメモリ PCM ReRAM MRAM

写真・図

公開 IEDM2018 ISSCC2019 ISSCC2019 プレスリリース’19/2容量 48Mb(128Mb) 3.6Mb 7Mb 1Gbノード 28nm 22nm 22nm 28nmセルTr FD-SOI FinFET FinFET FD-SOI

22

バックエンド技術 HBM(High Bandwidth Memory)DRAM単体の帯域ボトルネックを並列化で克服する開発が続く

出典： ISSCC 2019 F2 Memory-Centric Computing from IoT to Artificial Intelligence and machine learning: K. Sohn“High-Bandwidth Memory (HBM) DRAM for Energy-Efficient near-memory Computing” スライド17,29,31,32,38

HBM with BLP

Bank Level Parallelism

HBM2 HBM3速度 2.4Gbps 4Gbps容量 64Gb 128Gb全容量 32GB 64GBBW ~256GB/s 512BG/s

NVIDIA Tesla V100

4HBM⇒32TB/s

23

オフチップメモリ SCM(3D-Xpoint)DRAM容量超えるキャッシュシステムでCPU利⽤率向上してML高速化

出典： ISSCC 2019 F2 Memory-Centric Computing from IoT to Artificial Intelligence and machine learning: M. Arafa “Novel Memory/Storage Solutions for Memory-Centric Computing” スライド31,32, 34

メモリセル

3D-XpointDIMM

3D-Xpoint DIMM

128/256/512GB

24

まとめスマートセンシング/AI/でITとOT を融合

� スマートセンシング(ユースケース)：ユーザーの使いやすさを追求� スマートファクトリでの超低消費電⼒センシング� 中央制御監視のための特徴量抽出� 非定常作業のリアルタイムAIによる自動施工化やロボット制御� スマート都市での大規模カメラ監視� AIチップの技術動向：ポストムーア時代のテクノロジードラーバー� 専用チップによるサービス事業強化� Edge TPU/Jetson nano等のエッジ向けSOM販売開始� メモリアクセスに伴うエネルギー削減� 様々な容量のデバイスの活用、3D-Xpoint/ReRAM/MRAMなど

Thank You.

日立 高浦 lsiシステムワークショップ20190507 pptx · ~2020...

Documents

日立高浦 lsiシステムワークショップ20190507 pptx · ~2020...