tensorflow as a service on azuredownload.anruichina.com/arc/techsummit/ai203.pdf · tensorflow as a...

36

Upload: others

Post on 29-May-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit
Page 2: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

TensorFlow as a Service on Azure构建基于 Azure 的 AI 分布式云平台

Microsoft Tech Summit 2017

微软技术暨生态大会

王希首席技术顾问微软(中国)有限公司

赵慧智技术总监才云科技

Page 3: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

主要内容与收益

• 理解• 微软人工智能全局观• 深度学习的定位• 工具与工程• TensorFlow与Azure的结

合: What, How and Why

• 全新的微软合作伙伴生态体系

合作• ISV/Partner

趋势红利,充分挖掘Azure云平台历史性的的技术与商业合作机遇。

• 整合深度整合,1+1 > 10

实践• 决策

AI时代,算法并不是致胜的唯一关键

• 拥抱变化通过合作,将专业知识,算法,数据与工程相结合

Page 4: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

1. WhyTensorFlow + Azure

Microsoft Tech Summit 2017

微软技术暨生态大会

Page 5: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

Microsoft AI 平台总览

Azure 服务

Azure 基础架构

工具

Page 6: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

微软智能云 Azure 助力人工智能

Cognitive Services

Bot Framework

Cortana

Azure Machine Learning

HDInsight

Stream Analytics

Microsoft Cognitive Toolkit

Data Science VM (DSVM)

TensorFlow & Caffe

Page 7: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

Big Tool for Big Project?

Page 8: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

多任务

分布式计算

资源监控

用户管理

自动调度

GPU支持

分布式存储

模型在线服务

高性能通信

硬件优化

服务器选型

灾备

多集群管理大

TensorFlowCaffe

CNTK

XGBoost 网络安全

统一界面支持

Page 9: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

当我们讨论Deep Learning我们在讨论什么

Page 10: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

2. What and WhoTaaS (TensorFlow as a Service)才云 AI 云平台

Microsoft Tech Summit 2017

微软技术暨生态大会

Page 11: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

才云科技 Founders

才云 CEO卡内基梅隆大学 博士曾为美国谷歌资深软件工程师,并6次获得谷歌副总裁和总监颁发的即时奖励。 曾作为技术带头人从事谷歌容器化集群管理系统的研发,自动化管理95%以上的谷歌数据中心服务器。美国卡内基梅隆大学(CMU)获得计算机博士学位,期间在分布式系统和网络安全领域的顶级国际会议发表学术论文数十篇,被引用上千次;研究成果曾被美国 Economist、英国 BBC、瑞士 RTS 电视台等国际媒体报道。

才云 COO

匹兹堡大学 博士

计算机、法律、历史、艺术多学位

CNCF全球大使

美国成功连续创业者

才云 首席大数据科学家

卡内基梅隆大学 硕士

曾为 Google 高级工程师,提出产品

聚类项目用于衔接谷歌购物和谷歌知

识图谱(Knowledge Graph)数据,

使得知识卡片(Knowledge Card)

形式的广告逐步取代传统的产品列表

广告(Product Listing Ads),开启

了谷歌购物广告在搜索页面投递的新

纪元。谷歌因此项目使得知识卡片形

式的广告每日触发上亿次,获得上千

万美元年收入。

才云 CTO

卡内基梅隆大学 硕士

曾为美国谷歌(Google)集群管

理组核心成员(Cluster

Management Team),主要参

与开发集群管理系统。在谷歌期

间作为核心成员参加了开发基于

容器集群的谷歌开源项目

(Kubernetes),一度成为全球

前十的贡献者和贡献最高的华

人。

才云 总架构师

卡内基梅隆大学 硕士

为kindle安卓平台组核心成员(

Fireos Framework Core Team

)其参与开发的基于容器化技术

的内部工具(dockerized

internal tool),利用AWS EC2

instance,极大地降低了系统升

级的复杂度,实现了平台升级进

度跟踪的全自动化。

Page 12: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

TaaS

Page 13: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

才云 TaaS 云平台:从工具到工程

多集群管

分布式模

型训练

弹性伸缩

用户管理

资源监控灾备

GPU支持

分布式存

统一界面

支持

Page 14: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

才云 on 微软加速器

Page 15: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

TaaS + Azure : 1 + 1 > 2

多集群管

分布式模

型训练

弹性伸缩

用户管理

资源监控灾备

GPU支持

分布式存

统一界面

支持

TaaS Azure

Page 16: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit
Page 17: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

3. How才云 TaaS + Azure

Microsoft Tech Summit 2017

微软技术暨生态大会

Page 18: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

TaaS + Azure : 三个例子

• 分布式模型训练及服务

• 多集群管理

• 大数据服务集成

Page 19: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

3.1 分布式模型训练及服务 – 是什么 | 为什么

• 资源使用

监控

• 资源池分

• 用户存储

对接

• 容器化

分布式

计算

分布式

存储

过程监

训练队

Page 20: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

3.1 分布式模型训练 – 才云TaaS提供什么

队列

1

训练任务n

训练任务4

训练任务3

训练任务2

训练任务1

队列

2

训练任务n

训练任务4

训练任务3

训练任务2

训练任务1

模型训练资源池

项目1

项目2

分布式存储

分布式存储

1. 高并发的IO(随着训练任务的增加 IO 并发的需求也会无限增加)

2. 弹性的存储扩容(单个用户可能会需要以 T 为单位的存储空间)

1. 稳定的计算资源支持(一个任务可能运行数周甚至更长)

2. 高性能的计算资源(CPU/Memory)3. 弹性的资源申请4. 分布式计算需求:高吞吐的网络IO

Page 21: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

3.2 分布式模型服务 – 才云TaaS提供什么

AI 模型

负载均衡监控

AI 模型 AI 模型

资源池

1. 稳定的计算资源支持(模型需要24h的提供服务)

2. 高性能的计算资源(CPU/Memory)

3. 弹性的资源申请 (负载均衡)

1. 用户服务:高吞吐以及弹性的网络IO2. 安全:安全的对外网络服务

Page 22: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

Kubernetes Certified Service Provider

Page 23: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

Kubernetes Partner

Page 24: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

3.1 分布式模型训练 – Azure结合点

大型计算实例,不断增加

丰富的工具与AI PaaS服务, 自由组合

第一方服务,同样Power by Azure

Page 25: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

3.2 多集群管理 –是什么 | 为什么

研发环境 测试环境 生产环境

控制中心

财务部门 法律部门 销售部门

控制中心

Page 26: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

3.2 多集群管理 – 才云TaaS提供什么

统一管理

统一调度

资源及环境的

隔离

对外服务的控

单用户可调度

的资源限制

Page 27: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

3.2 多集群管理 – Azure结合点

• 多环境快速复制 : Azure ARM Template

• 资源隔离,安全控制• Resource Group

• Role Based Access Control (RBAC)

• Azure AD

• Key Vault

• SDN: Azure VNET

• Storage

Page 28: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

3.3 大数据集成 – 是什么 | 为什么

模型训练原始数据(结构化数据)

模型训练原始数据(非结构化数据)

数据预处理 模型训练

Page 29: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

3.3 大数据集成 – 才云TaaS提供什么

分布式存储集群

统一访问及控制台

统一访问及控制台

统一访问及控制台

Page 30: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

3.3 大数据集成 – Azure结合点

IoT Hub

Event HubsData Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BIMachine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Scenarios & Workloads

Ingest & ETL Streaming Analytics & Machine Learning Data Aggregation Presentation

Page 31: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

4. Case Study才云 Azure 案例分析电商: 如涵

Microsoft Tech Summit 2017

微软技术暨生态大会

Page 32: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

如涵的 AI 业务介绍 – 基于服装类图片的 AI 分析

模型类别:服装类别,材质分析,款式分析

实时访问量:最大 1.8w 次/小时

存储需求: 目前 2T (1w 张图片大约 1.5 G)

Page 33: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

如涵解决方案架构

模型

Caicloud CLaaS

Caicloud TaaS

Ingress

模型

Azure Cloud{ Standard F16 (16 vcpus, 32 GB memory) * 4 }

如涵客户端

• 模型服务负载均衡

• 大吞吐公有网络 IO

• 大吞吐存储 IO

• 模型间大数据量业务通信

分布式存储

基于 Azure 计算节点的磁盘分配

基于 Azure 无限带宽的按流量计费方式

1. 模型间存在基于业务的高速弹性的网络通信需求

2. 模型自身对于计算资源需求会弹性伸缩

Page 34: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

讲师的激情因您的鼓励而愈发澎湃,

立即提交反馈即有机会获得精美礼品。

课程名称:基于 Azure 的 AI 分布式云平台应用案例

Page 35: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

如何联系我们

电话:400-1014-588

邮件: [email protected]

地址:杭州市滨江区六和路368号海创

基地北楼B3082

Page 36: TensorFlow as a Service on Azuredownload.anruichina.com/arc/techsummit/AI203.pdf · TensorFlow as a Service on Azure 构建基于 Azure 的 AI 分布式云平台 Microsoft Tech Summit

微软人工智能公开课中文版

微软虚拟学院观看https://aka.ms/MicrosoftAIMOOC

扫码学习