tensorflow as a service on azuredownload.anruichina.com/arc/techsummit/ai203.pdf · tensorflow as a...

Post on 29-May-2020

12 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

TensorFlow as a Service on Azure构建基于 Azure 的 AI 分布式云平台

Microsoft Tech Summit 2017

微软技术暨生态大会

王希首席技术顾问微软(中国)有限公司

赵慧智技术总监才云科技

主要内容与收益

• 理解• 微软人工智能全局观• 深度学习的定位• 工具与工程• TensorFlow与Azure的结

合: What, How and Why

• 全新的微软合作伙伴生态体系

合作• ISV/Partner

趋势红利,充分挖掘Azure云平台历史性的的技术与商业合作机遇。

• 整合深度整合,1+1 > 10

实践• 决策

AI时代,算法并不是致胜的唯一关键

• 拥抱变化通过合作,将专业知识,算法,数据与工程相结合

1. WhyTensorFlow + Azure

Microsoft Tech Summit 2017

微软技术暨生态大会

Microsoft AI 平台总览

Azure 服务

Azure 基础架构

工具

微软智能云 Azure 助力人工智能

Cognitive Services

Bot Framework

Cortana

Azure Machine Learning

HDInsight

Stream Analytics

Microsoft Cognitive Toolkit

Data Science VM (DSVM)

TensorFlow & Caffe

Big Tool for Big Project?

多任务

分布式计算

资源监控

用户管理

自动调度

GPU支持

分布式存储

模型在线服务

高性能通信

硬件优化

服务器选型

灾备

多集群管理大

TensorFlowCaffe

CNTK

XGBoost 网络安全

统一界面支持

当我们讨论Deep Learning我们在讨论什么

2. What and WhoTaaS (TensorFlow as a Service)才云 AI 云平台

Microsoft Tech Summit 2017

微软技术暨生态大会

才云科技 Founders

才云 CEO卡内基梅隆大学 博士曾为美国谷歌资深软件工程师,并6次获得谷歌副总裁和总监颁发的即时奖励。 曾作为技术带头人从事谷歌容器化集群管理系统的研发,自动化管理95%以上的谷歌数据中心服务器。美国卡内基梅隆大学(CMU)获得计算机博士学位,期间在分布式系统和网络安全领域的顶级国际会议发表学术论文数十篇,被引用上千次;研究成果曾被美国 Economist、英国 BBC、瑞士 RTS 电视台等国际媒体报道。

才云 COO

匹兹堡大学 博士

计算机、法律、历史、艺术多学位

CNCF全球大使

美国成功连续创业者

才云 首席大数据科学家

卡内基梅隆大学 硕士

曾为 Google 高级工程师,提出产品

聚类项目用于衔接谷歌购物和谷歌知

识图谱(Knowledge Graph)数据,

使得知识卡片(Knowledge Card)

形式的广告逐步取代传统的产品列表

广告(Product Listing Ads),开启

了谷歌购物广告在搜索页面投递的新

纪元。谷歌因此项目使得知识卡片形

式的广告每日触发上亿次,获得上千

万美元年收入。

才云 CTO

卡内基梅隆大学 硕士

曾为美国谷歌(Google)集群管

理组核心成员(Cluster

Management Team),主要参

与开发集群管理系统。在谷歌期

间作为核心成员参加了开发基于

容器集群的谷歌开源项目

(Kubernetes),一度成为全球

前十的贡献者和贡献最高的华

人。

才云 总架构师

卡内基梅隆大学 硕士

为kindle安卓平台组核心成员(

Fireos Framework Core Team

)其参与开发的基于容器化技术

的内部工具(dockerized

internal tool),利用AWS EC2

instance,极大地降低了系统升

级的复杂度,实现了平台升级进

度跟踪的全自动化。

TaaS

才云 TaaS 云平台:从工具到工程

多集群管

分布式模

型训练

弹性伸缩

用户管理

资源监控灾备

GPU支持

分布式存

统一界面

支持

才云 on 微软加速器

TaaS + Azure : 1 + 1 > 2

多集群管

分布式模

型训练

弹性伸缩

用户管理

资源监控灾备

GPU支持

分布式存

统一界面

支持

TaaS Azure

3. How才云 TaaS + Azure

Microsoft Tech Summit 2017

微软技术暨生态大会

TaaS + Azure : 三个例子

• 分布式模型训练及服务

• 多集群管理

• 大数据服务集成

3.1 分布式模型训练及服务 – 是什么 | 为什么

• 资源使用

监控

• 资源池分

• 用户存储

对接

• 容器化

分布式

计算

分布式

存储

过程监

训练队

3.1 分布式模型训练 – 才云TaaS提供什么

队列

1

训练任务n

训练任务4

训练任务3

训练任务2

训练任务1

队列

2

训练任务n

训练任务4

训练任务3

训练任务2

训练任务1

模型训练资源池

项目1

项目2

分布式存储

分布式存储

1. 高并发的IO(随着训练任务的增加 IO 并发的需求也会无限增加)

2. 弹性的存储扩容(单个用户可能会需要以 T 为单位的存储空间)

1. 稳定的计算资源支持(一个任务可能运行数周甚至更长)

2. 高性能的计算资源(CPU/Memory)3. 弹性的资源申请4. 分布式计算需求:高吞吐的网络IO

3.2 分布式模型服务 – 才云TaaS提供什么

AI 模型

负载均衡监控

AI 模型 AI 模型

资源池

1. 稳定的计算资源支持(模型需要24h的提供服务)

2. 高性能的计算资源(CPU/Memory)

3. 弹性的资源申请 (负载均衡)

1. 用户服务:高吞吐以及弹性的网络IO2. 安全:安全的对外网络服务

Kubernetes Certified Service Provider

Kubernetes Partner

3.1 分布式模型训练 – Azure结合点

大型计算实例,不断增加

丰富的工具与AI PaaS服务, 自由组合

第一方服务,同样Power by Azure

3.2 多集群管理 –是什么 | 为什么

研发环境 测试环境 生产环境

控制中心

财务部门 法律部门 销售部门

控制中心

3.2 多集群管理 – 才云TaaS提供什么

统一管理

统一调度

资源及环境的

隔离

对外服务的控

单用户可调度

的资源限制

3.2 多集群管理 – Azure结合点

• 多环境快速复制 : Azure ARM Template

• 资源隔离,安全控制• Resource Group

• Role Based Access Control (RBAC)

• Azure AD

• Key Vault

• SDN: Azure VNET

• Storage

3.3 大数据集成 – 是什么 | 为什么

模型训练原始数据(结构化数据)

模型训练原始数据(非结构化数据)

数据预处理 模型训练

3.3 大数据集成 – 才云TaaS提供什么

分布式存储集群

统一访问及控制台

统一访问及控制台

统一访问及控制台

3.3 大数据集成 – Azure结合点

IoT Hub

Event HubsData Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BIMachine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Scenarios & Workloads

Ingest & ETL Streaming Analytics & Machine Learning Data Aggregation Presentation

4. Case Study才云 Azure 案例分析电商: 如涵

Microsoft Tech Summit 2017

微软技术暨生态大会

如涵的 AI 业务介绍 – 基于服装类图片的 AI 分析

模型类别:服装类别,材质分析,款式分析

实时访问量:最大 1.8w 次/小时

存储需求: 目前 2T (1w 张图片大约 1.5 G)

如涵解决方案架构

模型

Caicloud CLaaS

Caicloud TaaS

Ingress

模型

Azure Cloud{ Standard F16 (16 vcpus, 32 GB memory) * 4 }

如涵客户端

• 模型服务负载均衡

• 大吞吐公有网络 IO

• 大吞吐存储 IO

• 模型间大数据量业务通信

分布式存储

基于 Azure 计算节点的磁盘分配

基于 Azure 无限带宽的按流量计费方式

1. 模型间存在基于业务的高速弹性的网络通信需求

2. 模型自身对于计算资源需求会弹性伸缩

讲师的激情因您的鼓励而愈发澎湃,

立即提交反馈即有机会获得精美礼品。

课程名称:基于 Azure 的 AI 分布式云平台应用案例

如何联系我们

电话:400-1014-588

邮件: info@caicloud.io

地址:杭州市滨江区六和路368号海创

基地北楼B3082

微软人工智能公开课中文版

微软虚拟学院观看https://aka.ms/MicrosoftAIMOOC

扫码学习

top related