日立 高浦 lsiシステムワークショップ20190507 pptx · ~2020...
TRANSCRIPT
1
AIチップを用いたエッジコンピューティングとスマートセンシング
高浦 則克[email protected]
2019年5月13日
株式会社⽇⽴製作所 研究開発グループエレクトロニクスインベーションセンタ
LSIとシステムのワークショップ2019
2
目次IT X OT 融合を実現するAI/スマートセンシングにおける、自他社や国家プロジェクトでの取り組みを、End-to-End接続して価値創造する観点で紹介する。� はじめに� スマートセンシングとAIチップのユースケース� AIチップの技術動向
本発表のスライド8~10ページの内容は技術研究組合NMEMS技術研究機構スマートセンシング研究所による、国⽴研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の委託業務の結果得られた成果である
3
はじめに 半導体技術の歴史的変換点
End of Dennard scaling End of Moore’s Law2025
集積度
CPU単体コア性能
ポストムーア
時代
(2025年~)動作周波数
消費電力
コア数
半導体の高集積化を先導してきたムーアの法則が終焉する
4
ポストムーア時代の変化点~2020年代: GPU/FPGA/ASICを適材適所で活用するAI向けコンピューティング普及~2040年代: 脳型処理や最適化問題向け等に革新的技術 が普及すると期待
‘80s ‘00s ‘20s ‘40s
コア・シ
ステム性
能(lo
g)CMOS鈍化, 革新技術普及までDomain-specific対応
Loihi(Intel),TrueNorth(IBM),Tangle Lake(Intel),Bristlecone(Google),IBM-Q
TPU(Google),Nervana(Intel),IPU(Graphcore), DFP(Denso), CMOSアニーリング
5
エッジコンピューティングとAI解析IoTで生成される膨大なデータを現場近傍で圧縮・変換してAI解析するエッジコンピューティングが注目されている
エッジフォグ
画像
センサ音響
クラウド制御・フィードバック
AI解析ITOT
IoTデータ
出典 : ⽇⽴製作所資料より抜粋
6
エッジコンピューティングの構成
分類 システム進化AI 人対象AI 物対象AIOT制御対象 プロセス業務 人間 空間(変化は限定的) 空間(常時変化)
ユースケース AT/Hによるプロセス改善/
業務改善
大規模監視 作業監視 溶接ロボ 完全自動運転 自動施工 協働ロボ
制御周期 〜⽇ 〜分 〜秒、〜ミリ秒 〜秒、〜ミリ秒学習の更新周期 〜⽉、〜年 ← ← 〜分、〜秒
アーキテクチャ
クラウド
エッジ現場
装置、人 空間・物体・人(制限変化) 空間・物体・人(自由変化)
学習
認識 制御理解 判断
構造化データ
学習(地図)学習
認識
管理 管理
エッジで理解・学習するリアルタイムAI、及び分散するエッジ群の運用/構成管理によって現場完全⾃動化システムの全体事業化を実現する
制御理解 判断
管理
認識 制御理解 判断
認識 制御理解 判断
認識 制御理解 判断
認識 制御理解 判断
認識 制御理解 判断
学習学習学習追加学習
認識 制御理解 判断認識 制御理解 判断
認識認識認識
7
エッジコンピューティングのユースケース
都市 ロボット・自動運転 スマートファクトリ提供価値 大規模映像監視 非定常作業 中央制御 超省電⼒ターゲット カメラ20台/サーバ
動画> 10 fps リアルタイム地図0.1秒追加学習 0.1ms/W
通信<128Mbps工場群監視
端末500µW以下機器設置容易
概要
GPU ✔ ✔ ✔FPGA ✔ ✔ ✔ASIC ✔ ✔ ✔Memory ✔ ✔ ✔MCU ✔ ✔⾃⽴電源 ✔
センサや⾃⽴電源に加えて、GPU/FPGA/ASIC/MCU/Memoryの性能を⾒極めて、新技術・製品の登場に注目して適材適所で活⽤する
理解
認識 制御
判断
センサ無線端末
コンセントレータ
工場3駅プラットフォーム
工場2工場1
8
スマートセンシング 工場全体⾒える化のボトルネックの解消
経営情報としてフィードバック
スマートセンサ端末センサ測定の自動調整を実現
測定パラメータ
センサデータ
DB
クラウド分析・管理
学習型コンセントレータデータの特徴を自動で判断し有価情報を収集
LTE
無線の帯域制限で画像・振動センサのrawデータ送信が困難⇒ センサデータを基に測定条件を自動調整して解決
LTE128kbpsで扱えるセンサの数(rawデータ通信)画像(30KB/秒) :0.53個振動(400KB/分):2.4個温度・電流・ガス等
(数十B/秒) :250個エナジーハーベスタ500uW
9
無線スマートセンサ端末用いたシステム� 学習型機能に対応し、動的センシングを実現� コンセントレータの指示でセンサ端末がデータ計測と通信
ケースへの組み込み
赤外線アレーセンサ
通信確認用LED
⾃⽴電源⽤⼊⼒端⼦
電源ON確認用LEDマイクロUSB
充電端子
<スマートセンサ端末>� 3V駆動、920MHz無線モジュール
10
ロボットアームの稼動状態の判定� センサパラメータを自動調整し関連性の高い成分を測定� 稼働状態の判定に必要なデータのみを測定して無線収集
⇒ほぼリアルタイム(>1回/秒)モニタリングを実現
電流センサ
音センサ
スコア
データ送信
データ取得指示
サンプリング 1HZ
11
⾃動⾞⽣産⼯場Jeep Wrangler KTPO(KUKA Toledo Production Operation) 828台の⾞をロボット259台で毎日生産、主作業は組⽴、溶接、運搬
ロボット1台当たりのベクトル数: 60、ロボットデータのサンプリング:50Hz単位時間当たり処理 ⇒ 3k Ops/sec (~100kbps, 1GB/日)出典 : “KUKA-Industrie-4.0.pdf”
ロボット制御(PLC)
ロボット
動作計画UIセンサ動作制御軸位置制御サーボドライブ速度制御トルク制御
ツール
ツール制御センサ論理制御サーボドライブ速度制御トルク制御
ロボット
ツールPLC
12
クラウドでの中央管理・解析⾒える化・データ保存クラウドに集約した全ての⼯場データを運⽤管理して解析⾒える化
ライン1
ロボット2700台
ライン45本
クラウド1ヶ
工場4ヶ所
解析⾒える化
アプリストア GUI&APIConfigストア解析ダッシュボード運用管理
アプリAアプリB アプリC
100Kbps, 1GB/日/ロボット(Rawデータ)
ハイエンドハードウェア
ミッドレンジハードウェアOS
AI解析アプリショップ135箇所
(ロボット20台当たり1台)
2Mpbs, 20GB/日/ショップ(Rawデータ)
667Kpbs, 6.7GB/日/ショップ(AI解析後データ)ゲートウェイ
90Mbps/工場3.6TB/日/4工場(AI解析後データ)270Mbps/工場(Rawデータ)
出典 : Fog World Congress 2018 Nebbiolo Technologies 社 講演資料を参考に作成
13
AI解析と⾒える化センサフュージョンによる特徴量抽出をエッジで実⾏しデータを圧縮1/3
2Mpbs, 20GB/日/ショップ(Rawデータ)
667Kpbs, 6.7GB/日/ショップ(AI解析後データ)解析⾒える化
Close Loop ActionInsight Extraction (Reactive,
Realtime, Predictive, Prescriptive)Data Reduction, Compression
Extraction, Cleansing, Homogenization
AI解析前データ(Rawデータ)
出典 : Fog World Congress 2018 Nebbiolo Technologies 社 講演資料を参考に作成AI解析前後のデータとして模擬的に本資料のスライド「学習適⽤例② ロボットアームの稼動状態の判定」を引用
AI解析後データ
歪センサ (50Hz)電流センサ(1Hz)
制御
認識
理解判断
管理
学習
60k Ops/sec per AI
ゲートウェイCPU 4 core Atom
ストレージ 32-128Gメモリ 8G
ツール制御 ロボット制御 ショップ安全 人安全
14
リアルタイムAI完全⼯場⾃動化には新しい非定常・非定型物体認識が必須
定型作業ロボット 非定型・協創ロボット
環境理解< 100ms理解
理解:環境理解20分
参照 参照
認識制御
判断
認識 制御
判断追加学習1ms
従来 リアルタイムAI
点群抽出カメラ 1カメラ 2
カメラ 3カメラ 4
アップデート
A1
A2
A3
A4
� 回転⾏列による積算� ノイズ除去した3D座標� ⼤量の距離計算
マッチング評価
点群抽出点群抽出点群抽出
フュージョン
⾏列積算と距離計算がカギ⇒メモリ量や処理要求の定量化要
複数視野から収集するカメラデータの解析はノイズや妨害に弱い
PrincetonUniv.
IntelLab Mitsubishi
Object Complicated Complicated Simple
Year 2017/5ICRA’17
2018/1ICCV’18 2018/3
HW CPU (Intel 20-thread 3.3GHz) N.A.
Overalltime 7800ms 980ms 3.5ms
15
大規模カメラ監視(ヒト認識の要求仕様)
機能 CNNモデル 要求される処理 [TOP]
要求されるメモリ [MB] *FP32bit
Object detection Faster RCNN 5.2 3547Attribute estimation ResNet-50 1.2 535Feature extraction ResNet-18 0.6 455
Total (5⼈ヒト認識) 7.0 4.5GB
考察①2 台のカメラによるヒト5⼈の認識⇒ 7TOPS for 1fps with 4.5GB (FP32)⇒ 21TOPS for 3fps(GPU TITAN, 22TOPS 12GB)②20 台のカメラ⇒ 210TOPS, 45GB.⇒ INT8 処理で 11GB にメモリ削減.(GPU 一式, 110TFLOPS, 12GB, 250W).
カメラ台数とフレームレート増による、サーバー台数と電⼒増⼤が厄介
出典 : ⽇⽴製作所資料 “Video Analytics for public safety solutions”フィジカルソリューション http://info.hitachiics.co.jp/product/pss/index.html
課題 : 1 GPU (GeForce 1080 Ti) で カメラ3 台/server, ~ 2 fps
16
AIチップの技術動向
2012 IEEE Rebooting Computing Initiativeがスタート2014 IBMがTrueNorth発表2016 GoogleがTPU発表 (TPU2.0 in 2017, TPU3.0 in 2018)
HPがThe Machine(ヘテロマルチ+160TBメインメモリ)公開2017 AppleがiPhone用A11チップにNeural Engine搭載
Intelが Loihi発表2018 GoogleがEdge TPU発表(エッジ向け)
MSがProject Brainware発表(Intel FPGA)AWSがGravition/Inferentia発表FPNがMN-core発表 (エクサスケール)IBMが8-bit AIチップ発表(NeuroIPS/IEDM)QualcommがSnapdragon855発表(Android向け)
2019 NVIDIAがJetson nano 発表(エッジコンピューティング向け)
専⽤チップによるサービス基盤強化、エッジコンピューティングへ対応の流れ
https://cloud.google.com/edge-tpu/
https://projects.preferred.jp/mn-core/
MN-core⻑辺30mm
Edge TPU1セント硬貨より小さい
17
エッジ向けSystem-On-Module (SOM)テクノロジースタックと連携するHWモジュールの販売が開始される
https://up-shop.org/home/270-up-squared.html 、 https://coral.withgoogle.com/ , https://www.nvidia.com/ja-jp/autonomous-machines/embedded-systems/jetson-nano/ https://www.thundercomm.com/app_en/product/1529550806790727
Intel Google NVIDIA Qualcomm
ボード写真
製品シリーズ OpenVINO Edge TPU Jestson nano Thundercomm処理速度 ー 4TOPS 472GOPS ー消費電⼒ ー 2W 5W/10W ー精度 ー INT8 FP16 ー販売価格 $149 $149.44 $99 ー備考 Linux&OpenVINO
インストール済み Cloud TPUを補完 CUDA利⽤可能 Snapdragon845
90 mm 85 mm 70 mm
18
NN モデルサイズオリジナルまたは10倍以上サイズ圧縮してエッジに搭載
オリジナル 圧縮1.72MB⇒44KB
240MB⇒6.9MB 91MB⇒4.2MB 97MB⇒5.8MB
550MB⇒11.3MB
Inception-V3 ResNet-50
LeNet-5
出典: https://qiita.com/yu4u/items/7e93c454c9410c4b5427 、ISSCC 2019 Short Course F4 Intelligence at the Edge: How Can We make machine Learning More Energy Efficient “Bandwidth-efficient Deep Learning with Algorithm and hardware Co-design” スライド14をベースに作成、
19
AIモデルとメモリ容量
出典: ISSCC 2019 Short Course F4 Intelligence at the Edge: How Can We make machine Learning More Energy Efficient “Mixed-Signal Circuits for Inference at the Edge” スライド11をベースに作成
STMPCM
東北⼤MRAM Intel
ReRAMIntel
MRAM
モデルサイズ [B]
推論
当たり
のエネル
ギー[J
]
100
10-5
10-10
TiFRAM
S社MRAM
XX
X
XX
JmJ
µJ
nJpJ108107106105104103102 109
Applications・ Wake-Up Triggers・ Keyword Spotting・ Eye Tracking・ Activity Monitoring・ Voiceprint Biometrics・ Microrobotic Vision
顔検出SVM
数認識EACB
自動運転ResNet-50HD
画像分類1000 classesMobileNet v1画像分類10 classesBinary CNN
10111010 1012
SLCNAND
QLCNAND
3DXpoint
IBMPCM S社
DRAM
オンチップ オフチップメモリ・ストレージ
複数のAIモデルやアプリに対応する容量のメモリ・ストレージが必要HP The Machine
160TB
RNN・Language Model・Neural Programmer
大規模カメラ監視Faster CRNN+ResNet-50+ResNet-18
20
AIチップやメモリ、ストレージの課題オフチップメモリやストレージの容量/帯域/レイテンシが追いつかない
CPU Host(~1TFLOPS)
DDR MemorySystem
(~128 GB)
Storage(~100 TB)
GPU(>>1TFLOPS)
HBM2(~32 GB)
HBM2(~32 GB)
16GB/s
100GB/s
GPU(>>1TFLOPS)
80GB/s
80GB/s
80GB/s
256GB/s
256GB/s
INC2019, IRC 2019 Keynote speech 2 by Prof. Wen-mei Hwuをベースに作成、 Y. H. Chen,ISSCC’16
従来アーキテクチャのイメージ
コンパクト化や省電⼒化がエッジアーキテクチャに求められる
21
オンチップメモリ eNVMIoT/エッジ向けに2019年度に学会発表・量産・出荷予定
https://www.st.com/content/ccc/fragment/multimedia/epresentation/technology_pres/group0/63/51/83/98/d4/11/40/7b/IEDM_conference_Dec2018_ARNAUD/files/IEDM_conference_Dec2018_ARNAUD.pdf/jcr:content/translations/en.IEDM_conference_Dec2018_ARNAUD.pdfhttps://eetimes.jp/ee/articles/1902/22/news101.html, https://eetimes.jp/ee/articles/1903/11/news020.html
ベンダー STMicro Intel Samsungメモリ PCM ReRAM MRAM
写真・図
公開 IEDM2018 ISSCC2019 ISSCC2019 プレスリリース’19/2容量 48Mb(128Mb) 3.6Mb 7Mb 1Gbノード 28nm 22nm 22nm 28nmセルTr FD-SOI FinFET FinFET FD-SOI
22
バックエンド技術 HBM(High Bandwidth Memory)DRAM単体の帯域ボトルネックを並列化で克服する開発が続く
出典: ISSCC 2019 F2 Memory-Centric Computing from IoT to Artificial Intelligence and machine learning: K. Sohn“High-Bandwidth Memory (HBM) DRAM for Energy-Efficient near-memory Computing” スライド17,29,31,32,38
HBM with BLP
Bank Level Parallelism
HBM2 HBM3速度 2.4Gbps 4Gbps容量 64Gb 128Gb全容量 32GB 64GBBW ~256GB/s 512BG/s
NVIDIA Tesla V100
4HBM⇒32TB/s
23
オフチップメモリ SCM(3D-Xpoint)DRAM容量超えるキャッシュシステムでCPU利⽤率向上してML高速化
出典: ISSCC 2019 F2 Memory-Centric Computing from IoT to Artificial Intelligence and machine learning: M. Arafa “Novel Memory/Storage Solutions for Memory-Centric Computing” スライド31,32, 34
メモリセル
3D-XpointDIMM
3D-Xpoint DIMM
128/256/512GB
24
まとめスマートセンシング/AI/でITとOT を融合
� スマートセンシング(ユースケース):ユーザーの使いやすさを追求� スマートファクトリでの超低消費電⼒センシング� 中央制御監視のための特徴量抽出� 非定常作業のリアルタイムAIによる自動施工化やロボット制御� スマート都市での大規模カメラ監視� AIチップの技術動向:ポストムーア時代のテクノロジードラーバー� 専用チップによるサービス事業強化� Edge TPU/Jetson nano等のエッジ向けSOM販売開始� メモリアクセスに伴うエネルギー削減� 様々な容量のデバイスの活用、3D-Xpoint/ReRAM/MRAMなど
Thank You.