技术白皮书 - jiuqi.com.cn · 技术白皮书...
TRANSCRIPT
北京久其软件股份有限公司
郑重声明:北京久其软件股份有限公司版权所有。本文档中任何部分未经北京久其软件股份有限公司书面授权,
不得将材料泄露给第三方,不得以任何手段、任何形式进行复制与传播。
技术白皮书用大数据技术帮助大型组织实现信息化升级
◎中国报表管理软件的领航者 ◎中国商业智能软件创新动力 ◎中国电子政务软件的主力军 ◎中国集团管控软件的先锋力量
久其软件
中国知名管理软件供应商
将十余年行业积累凝结成多领域信息化管理解决方案
竭诚奉献给广大客户朋友
北京久其软件股份有限公司(Beijing Join-Cheer Software Co.,Ltd.)是中国领先的管理软件供应商,主要从事
报表管理软件、商业智能软件、电子政务软件和集团管控软件的研发与推广,长期致力于为政府部门和企业集团
提供咨询及信息化管理解决方案。于2009年8月11日在深圳证券交易所上市(股票名称:久其软件;股票代码:
002279)。公司注册资本1.76亿元,现有员工1500余人。
1997年,久其软件创建于北京中关村,现已形成以北京总部为核心、全国30多家分支机构为节点的营销、研
发、服务和咨询体系,以及包含公司品牌(久其软件)、技术品牌(久其DNA)、产品品牌(久其报表、久其
BI)、解决方案品牌(久其GMS、久其GMC、久其云服务、久其GSI)、服务品牌(久其吾勤服务)的品牌体系。
产品用户遍布各级政府部门、直属机构和大型企业集团,目前已与40多个国家政府部门和80多家中央企业集团建立
了长期合作关系,用户数量逾百万。公司现已申请7项发明专利、121项软件著作权,连续多年被认定为“国家规划
布局内重点软件企业”,荣获2011年“中国软件行业(报表管理软件)领军企业奖”、2012年“中国软件行业(集
团管控软件)领军企业奖”、2012中国IT用户满意度评选“公共财政管理软件服务满意度第一”、“集团管理软件
用户推荐品牌”两项大奖。
久其软件坚持以战略化咨询、平台化技术、专业化服务打造精细化的产品和解决方案,并通过丰富的业务积累
和实施经验,不断创新产品与服务平台。久其研究设计开发的决算报表、合并报表、商业智能与决策分析、全面预
算、集中核算、财务辅助办公管理、资产管理、战略绩效、风险管控、项目管理、经营统计和综合业务应用等系统
在财政、国资、统计、民政、交通、通信、金融、建筑、冶金、军工、能源、化工、旅游和商贸等多个领域发挥着
重要作用。久其的政府管理与服务解决方案(GMS)、企业集团管控解决方案(GMC)、久其云服务等优秀解决方案正
在为广大用户提供系统专业的服务支持。
久其软件围绕“情”字稳健构筑企业文化,全面倡导“尊重人才、重用人才、善待人才”的人才观、“简单、
规范、高效、创新”的价值观以及“身体健康、心理健康、知识共享、富足自强”的人生追求,具有成熟的企业文
化体系。久其还通过设立久其人俱乐部、创新奖励基金等不断强化员工关怀与员工发展,并将实施员工创业基金扶
持、打造创业孵化基地写进2010-2019的十年发展规划,用实际行动履行责任。
久其软件,现已成为中国管理软件市场具有领先地位的民族品牌,未来,久其将坚持“久其软件,钻石品质”
的发展愿景,努力践行“软件报国”的崇高使命。继续秉承柔性软件研发理念,依托自主研发的核心技术平台,凭
借对技术发展方向、行业最佳实践、精细化管理思想和对中国国情的透彻理解,以及对客户需求的精准把握,成为
领先的政府部门与企业集团管理信息化咨询、建设、服务的国际化优秀供应商。
关于久其
3
久其唯数 技术白皮书
久 其 软 件 专 注 数 据 管 理 与 分 析
大数据从 开始Valueinsight
4
Valueinsight技 术 白 皮 书久其唯数
1 概述
1.1 大数据浪潮的冲击
大数据可能是当前技术领域最热门的词汇之一,无论是企业还是政府,无论是IT从业人员还是政府官员,无论是技术专
家还是商务人士或平民百姓,无论是懂技术还是不懂技术的,一夜之间,似乎形成了人人都在谈论大数据,人人都必须关心
大数据的局面。
抛开媒体炒作和普通人员的从众心理不论,大数据确实是极少数超越了IT领域,正在向各行各业延伸的技术概念,在计
算机与互联网、科学研究、医疗、商业零售、制造业、智慧城市、教育、公共安全和政府治理等各个领域均已快速渗透。
比如美国的奥巴马政府认为,数据在未来将是陆权、海权、空权之外的另一种国家核心资产,美国政府在2012年3月发布了
《大数据研究和发展计划》,把大数据提高到国家战略层面,去年闹得纷纷扬扬的“棱镜门”事件,本质上就是美国政府将
大数据技术应用于国家安全的典型范例;在商业领域,亚马逊根据用户端购买记录,分析用户的消费偏好,自动为用户推荐
其感兴趣的产品或产品组合,显著提升了交叉销售效果。大数据作为当前社会最活跃的技术变量之一对整个社会的冲击毋庸
置疑。
2012年《纽约时报》刊文称:“大数据时代已经来临”。
据统计,Google每个月要处理900亿次Web搜索请求,为此每月需要处理的数据量高达600PB(1PB=100万GB)。国内
的情况也大致如此,以腾讯为例,目前腾讯的数据总量已超过100PB,日新增数据超过200TB,月数据增长率超过10%。
从技术演进的逻辑来看,大数据的流行有其必然性。随着互联网、移动互联网、传感器等技术的快速发展,人类需要处
理的数据量在快速膨胀,每18个月数据量增长一倍的“新摩尔定律”已经得到验证。
IDC预测2014年产生2万TB数据,2014年大数据产值超过6亿美元,2016年将可望突破100亿美元,其增长速度令人咂舌。
久其唯数 Valueinsight
5
用大数据技术帮助大型组织实现信息化升级
同时,大数据也正在逐渐由传统的互联网数据处理向大型企业或政府部门IT应用延伸,大型企业或政府部门使用大数据
技术来解决以前无法解决或解决成本过于高昂的问题,从数据中获得知识,创造价值。大数据对数据采集、传输、存储、加
工和应用等各个环节都提出了新的挑战,传统的纵向扩展型架构更适合处理结构化数据和关系型数据库,大数据的处理则需
要横向扩展型的基础架构,即Scale-out架构,通过大规模分布式集群和并行计算来实现更为有效的处理。
作为重要的战略资源和核心创新要素,大数据将带来人类生产、生活和社会管理的深刻变革,掌握和利用大数据资源的
能力正成为国家竞争力的战略制高点,欧、美、日等发达国家政府和IT巨头纷纷布局大数据技术研发和应用。大数据将重构
信息技术体系和产业格局,也将深刻影响国家网络与信息安全全局。
1.2 几个大数据分析案例
1、大数据应用公共行政管理领域
在公共管理领域,国内外的一些先行者已经在运用大数据的方法,通过多渠道的数据采集和快速综合的数据处理,提
升社会治理能力,实现政府公共服务的技术创新、管理创新和服务模式创新。比如在西班牙首都马德里,通过整合警察、消
防、医疗系统的数据,使得救援时间大幅度缩短,巡逻队、消防车、救护车能够在8分钟到达81%的突发事件现场;在新加
坡,由于智能交通综合信息管理平台的应用,大大提高了交通流速和流量预测的准确率,通过有效的引导和干预,显著提升
了高峰时段的车辆通行效率。
2、美国每日网上价格指数统计
美国麻省理工学院承担的一项“十亿价格项目”,研究人员每天要在网上抓取超过50万条商品价格信息,用于计算“每
日网上价格指数”,以反映年度和月度的通货膨胀程度。该指数覆盖了所有类别和所有零售商销售的商品平均价格,该数字
比官方公布的数据提前一周,而且数据采集的成本低廉,更新频度很高。2008年9月,当美国雷曼倒闭时,“每日网上价格
指数”很快显示出价格下降的趋势,而官方统计的CPI直到11月才显示出下降的趋势。
3、基于百度搜索数据的消费者信心指数
近年来,百度公司与中科院合作,基于百度搜索数据编制了消费者信心指数(CCI)。结合网络数据样本量大、覆盖面
广、获取便捷、即时性强的特点,百度消费者信心指数采集了3C、服装、家具装潢、旅游、化妆品、汽车、食品、房地产
等8个行业的数据,进而使用三项移动平均法对搜索数据进行平滑处理,消除其周期性影响,最后将搜索数据进行相应的同
比转化,生成最终的网络消费者信心指数。该指数比官方统计的消费者信心指数提前12个月预测了CCI的拐点。
4、谷歌公司对甲型H1N1流感爆发的预测
谷歌公司在2009年在全球范围内爆发甲型H1N1流感之前几周就已经预测到了该病毒的爆发。谷歌公司把全球最频繁检
索的词条与公共卫生疾病防控中心的数据进行对比,通过分析人们的搜索记录来判断这些人群是否患上流感。谷歌公司为了
测试这些检索词条,总共处理了4.5亿个不同的数学和统计模型,他们发现45条检索词条组合的预测与官方数据的相关性达
到97%以上,然后基于其庞大的搜索数据库,谷歌公司比公共卫生疾病防控中心提前1-2周准确地预测出了流感爆发的地方
和蔓延的速度。
1.3 为什么需要大数据
只要涉足信息化的潮流之中,任何组织都必然面临数据量的快速膨胀,但传统上人们普遍认为大数据还只是极少数互联
网企业的专属特权,大多数企业或政府部门还到不了大数据的层面,但是随着软硬件技术的快速发展,有几个因素迫使企业
或政府部门也不得不认真考虑引入和运用大数据技术:
(1)首先,已建成的IT应用系统随着时间的推移会积累越来越多的历史数据,比如国内某通信运营商的经营分析系统
经过10余年的运行,已积累了几百个TB的数据;某政府的文化管理部门管理的业务数据、执法和动态监管数据、文化产品
6
Valueinsight技 术 白 皮 书久其唯数
数据等数据每年增量在180TB以上。这些历史数据迫切期待充分整理和深入应用。
(2)其次,需要采集和处理的数据范围在快速扩大,许多低价值密度的数据由于技术和成本因素原先不被重视和利
用。比如环保部门对于大气、水和土壤污染的监测,以前由于技术手段的限制,只能小范围、低频率进行抽样调查,现在由
于移动互联网、传感器技术的快速发展和硬件成本直线下降,已经可以实现大范围、准实时的采集和监测了,数据量也由此
快速增长。
(3)再次,企业或政府部门生产和服务过程的自动化、智能化也在快速产生大量数据。比如Google研制自动驾驶汽
车,为了对周围环境作出预测,每秒钟要收集将近1GB的数据。这对数据采集和处理能力要求不言而喻。
(4)再次,智能化决策是各类组织信息化的未来方向,过去很多企业或政府部门对自身生产经营或提供公共服务过程
的分析只停留在数据和信息的简单汇总层面,缺乏对市场、客户、财务、业务、服务反馈等各个业务环节的深入分析。在大
数据时代,企业或政府部门可以对收集到的大量内部和外部数据进行全量分析以获得生产和服务过程的全面理解,从而帮助
组织提升效率,创造价值。
(5)最后,随着IT应用系统功能、技术复杂度越来越高,使得IT运维成本急速上升,采用传统的高性能服务器以解决
数据的爆炸性增长的方案,让企业或政府部门越来越不堪重负,如何以较低的成本实现应用系统的横向扩展就成了各类组织
信息化建设关注的重点。希望能够采用相对廉价的设备,在确保高可靠、高性能的前提下解决问题,而且成本可控。
快速膨胀的数据量必然对数据采集、传输、存储、分析和应用等数据处理的各个环节产生巨大的压力和瓶颈,也带来了
巨大的机遇,传统的数据处理技术已经无法胜任大数据时代下的数据处理需求了,必须在廉价设备和开源的低成本解决方案
基础上发展全新的大数据处理技术以应对新的数据环境。
目前Google、微软、IBM、Oracle、HP、Facebook、华为、阿里巴巴、腾讯、百度等传统的IT和通信巨头都在加大大数
据关键技术的研究和产业化,政府、大学、第三方研究机构、IT应用开发商和IT应用组织,甚至基金机构也掀起了进军大数
据产业的热潮。
1.4 企业应用发展趋势分析
了解历史和启示未来,分析IT产业的发展历史可以帮助我们把握未来IT应用的发展脉络。我们认为,企业应用的发展大
致经历了以下四个阶段:
1、单机版应用
早期的单机版应用主要解决了个人工作效率提升的问题,例如单机的财务记账、电子表格、办公软件等,数据规模很
小,主要来源于手工录入的结构化数据。
2、局域网应用
局域网应用主要采用C/S的架构,实现了组织内部的工作协同,例如财务核算、预算管理、物资管理、销售管理等系
统,由于数据采集或生成的模式和范围都比远比单机应用更广泛,除了手工录入的数据外,还有来自各种机器设备自动生成
的数据,如条码扫描的数据、交换机生成的数据等。因此数据的规模也进一步扩大到千万级别,但仍然以结构化数据为主。
3、基于Internet/Intranet的Web应用
随着技术的和全球经济的发展,为适应环境的变化,组织内部的IT应用系统的需求、流程、规范、用户范围和IT运行
环境等也需要快速调整,而且用户使用系统的地域范围也进一步扩大,用户需要在广域网的范围随时登录系统以完成工
作,而传统的局域网C/S应用难以适应庞大用户群的访问,且升级维护复杂,运维成本较高,无法随需应变。因此诞生了
B/S模式的IT应用架构,以解决大规模用户访问、需求灵活变化以及运维成本高的问题。基于Internet/Intranet的Web应用实
现了跨地域、跨部门的工作协同,如OA门户系统、CRM、BI等系统,由它们产生的数据规模进一步扩大。
7
用大数据技术帮助大型组织实现信息化升级
4、面向Intranet/Internet、移动互联网的应用大集中和云计算
随着移动互联网的普及,每个消费者都成了数据的创造者,每时每刻人们都在不断地生成数据,其中有70%的数据是半结
构化或非结构化的数据,如微博、博客、论坛、文档、图像、网络音视频等,这些数据已经无法用传统的技术来处理,因此大
数据处理技术应运而生,通过对大数据技术的运用真正实现了跨地域、跨机构、跨组织的大规模协同。
总而言之,网络、云计算(即服务端计算技术)、终端和用户
体验等四个方面的技术是推动IT应用技术发展的四大驱动因素。
从IT应用的发展历程可以看出,IT应用的涉及领域越来越多、数
据规模将越来越大、数据的来源越来越多样化、使用的技术越来越复
杂化、数据获取形式越来越丰富和便利化、应用间的协同越来越频繁
和网格化,因此未来IT应用技术的发展也将沿着这个路线进行发展,
主要包括:
(1)云计算技术:即基于互联网的相关服务的增加、使用和交
付模式,通常涉及通过互联网来提供动态易扩展且通常是虚拟化的
资源。云计算技术通常包括三个层次的服务:
基础设施即服务(IaaS):设施作为服务,服务器计算和存储资源的虚拟化,CPU计算资源和存储资源都成了服务;
平台即服务(PaaS):平台作为服务,这里的平台不是我们通常理解的软件平台,而是软件生态系统的核心应用,比
如阿里巴巴、QQ、微信、360安全卫士等;
软件即服务(SaaS):软件作为服务,以Web形式提供的独立应用(如Web邮箱)或依托某种平台上的应用(如微信
上的第三方支付、游戏等)。
(2)大数据技术:大数据技术的本质是用于处理超大规模计算和非传统数据分析的一类技术,包含云计算技术、分布
式处理技术等。
(3)移动化应用:随着智能终端技术的成熟和普及,智能移动设备将逐渐成为用户获取信息的第一入口,因此越来越
多的企业应用将向移动化的方向进化。
(4)终端计算:由于智能终端的计算能力越来越强大,而云计算则解决了服务端计算的问题,因此企业应用要在终端
计算与服务端计算之间寻找一个平衡。
(5)感知技术:其实大数据技术的发展与感知技术的发展是密不可分的,以传感器技术、指纹识别技术、人脸识别技
术、眼纹识别技术、RFID技术、坐标定位技术等为基础的感知能力的提升,将企业应用的体验带到了一个崭新的时代。
1.5 大型组织内部的大数据应用的特征分析
企业或政府部门涉及的数据类型非常多,涵盖结构化的关系数据、半结构化的日志数据和非结构化的文档或多媒体数据。
结构化的数据仍然以传统的关系型数据库的形式存在,而半结构化的数据,主要包括各类访问日志数据、传感器采集数
据、XML交换数据等,这些半结构化的数据规模远大于结构化的数据,价值密度低,但业务价值高,因此对这类数据的分
析挖掘也是企业或政府部门越来越关注的重点。
另外还有许多非结构化的档案、情报资料等数据,如各种分析报告、视频、图片、新闻网页、博客、论坛帖子、评论
等,考虑到目前针对非结构化数据的分析挖掘技术仍然不够成熟,这类数据以文件档案形式进行管理,提供分类、检索等功
能。目前企业或政府部门对大数据的挖掘分析的重点还是聚焦于结构化和半结构化的数据。
8
Valueinsight技 术 白 皮 书久其唯数
2 几种大数据技术路线及发展动向
2.1 基于传统关系数据库的解决方案
对于Oracle、Sybase、IBM DB2等传统数据库厂商,都提供了各自的应用于大数据处理的技术方案,主要通过集群管理
的方式进行扩展,同时配合列存储、分区管理、并行计算等,这些技术在传统的关系数据库技术上进行优化和升级,基本上
可以实现应用的无缝升级,应用实施上较为简单和方便。但在处理能力上,最多仅能处理TB级别的数据量,系统的横向扩
展能力有限(比如Oracle RAC最多仅能支持四台机器的集群),当数据量达到几十个TB以上甚至PB级别时,系统的负载能
力往往难以支持。此外,基于商业数据库厂商的大数据处理方案,成本非常高昂。
2.2 基于MPP技术的数据库解决方案
MPP(Massively Parallel Processing)是一种大规模并行处理技术,主要由Teradata、GreenPlum等厂商提供,这些厂商的
产品仍然以传统关系数据库的技术为基础,基于Share Nothing架构实现,在系统的分布式处理和可扩展性上有了大幅提升。
基于MPP技术的数据库解决方案,可以支持数十到数百个TB级别的数据存储,系统的横向扩展能力较传统数据库有较大提
升。由于基于MPP的数据库技术仅由少数几家商业公司提供,技术架构封闭,成本仍然很高,且系统维护复杂度高,后期需
要专业的技术团队来进行维护。
9
用大数据技术帮助大型组织实现信息化升级
2.3 基于内存数据库的解决方案
近几年随着内存成本的下降,开始出现一些完全基于内存实现的数据库解决方案,如SAP HANA等内存数据库产品,这
些产品基于Share Nothing架构也可以支持分布式的部署模式,能够提供大数据量的实时计算处理,部分厂商还结合了列存储
等数据库技术,在处理OLAP应用时具有很高的性能优势。在使用模式上也与标准数据库完全一致,使用较为简单。但完全
基于内存的实现,其成本仍然远远高出传统数据库解决方案;此外,内存数据库还是基于标准的数据库体系实现,在系统的
横向扩展性上存在很大限制。基于内存数据库的解决方案,也只能处理数十个TB级别的数据量,并且系统建设时投入成本
非常高。
2.4 基于NoSQL技术的数据存储解决方案
NoSQL技术是近年来针对互联网应用而出现的一种非关系型数据库技术,用于处理特定应用场景的数据存储技术,在
开源领域有着非常广泛的应用和支持。基于NoSQL技术的数据库,不同于传统关系型数据库的存储模式,在处理一些Key-
Value模式的数据或文本、日志类的半结构化或非结构化数据时有较大优势,如Apache Canssadra、MangoDB、Membase、
CoachDB等等,都是一些非常优秀的NoSQL数据库。这些数据库并没有支持完整的数据库特性,但在某些特定的应用领域有
着良好的性能表现,而且都具有很好的横向可扩展性,能够支持TB甚至PB级的数据处理;完全开源,实施成本较低,而且
还有大量的社区资料支持。
2.5 基于Hadoop体系的大数据解决方案
Hadoop是一个能够对海量数据进行分布式处理的软件框架,该框架以一种可靠、高效、可伸缩的方式对数据进行处
理。Hadoop采用简单算法来分析非结构化、半结构化和结构化数据以产生有意义结果的能力是无与伦比的。
Hadoop由开源社区实现,不仅提供卓越的数据分析功能和结果,还比传统数据分析工具更具成本效益。随着数据集
的增长,传统数据分析环境的设备规模呈指数增长,为获取能力的提升需要越来越大的费用投入,最终让人望而却步。而
Hadoop服务器集群能够随着数据集数量和规模的增长而直接附加存储,从实现系统负载和性能的线性化增长。
到目前为止,基于Hadoop技术体系的开源项目,已经涵盖了数据ETL处理、数据批处理与分析、数据存储、数据索引
管理、数据查询、海量数据内存计算等各个领域,能够对海量的结构化、半结构化以及非结构化数据进行存储和分析,已
经成为当前大数据领域数据处理事实上的标准。在开源领域中,类似于HDFS、MapReduce、Hbase、HIVE、SPARK等诸
多优秀的开源项目,已经形成了完整的Hadoop生态圈。
基于Hadoop的架构体系,可以很容易地构建出适应企业和政府部门的大数据应用平台,极大地降低了企业的信息化
成本。
10
Valueinsight技 术 白 皮 书久其唯数
3 久其唯数战略蓝图
3.1 久其唯数目标用户群
久其唯数主要面向数据密集型的企业级应用,主要涉及通信、交通、金融等行业的政府部门或大型企业,目标用户特征
如下:
● 信息化基础设施完善;
● 传统信息化应用程度高,愿意接受新的信息化技术和手段;
● 有大量的历史数据的积累;
● 有相对成熟的行业应用分析模型,对数据处理的实时性、复杂度有更高的要求。
3.2 久其唯数要解决应用场景
久其唯数主要应用于如下应用场景:
1、结合关系数据库和Hadoop技术的高可靠性、可伸缩性的统一数据管理平台
传统关系数据库技术经过30余年的发展,已经非常成熟,有大量成熟技术、工具、产品、方案和案例可用,在处理结构
化数据方面,传统的关系数据库技术仍具有无可替代的优势,在处理中小规模的数据、以及经过大数据预处理后的中粒度以
上的分析型中间结果数据方面,传统的关系数据库仍是最合适的选择。但在大规模半结构化、非结构化数据,以及低价值密
度的结构化数据方面,Hadoop技术则是最佳选择。久其的大数据平台通过构建一个应用中间层,将两者的无缝集成起来,
为大型企业或政府部门打造低成本的、可适应从GB级、TB级到PB级数据管理的高性能、高可靠性和可伸缩的应用平台,缩
短行业应用与Hadoop技术之间的距离,大幅降低大数据在大型企业或政府部门应用的难度。
2、海量数据的存储与实时查询平台
基于Hadoop技术实现海量数据的存储和备份管理,并针对这些海量的明细数据提供实时查询引擎,用户可以根据任意
组合的查询条件、分组条件、排序条件等查询满足条件的明细数据。
例如交通管理部门采集高速公路收费站收费数据、客运站发运数据、交通路段流量实时监控数据、海港/空港实时客流
和货运数据等,一个省每年的数据记录就会达到数十亿级别以上规模,传统的解决方案是利用关系数据库对数据进行分区、
分库,数据无法一次性全部加载到关系型数据库中,对于明细数据记录,用户只能查询有限时间范围内的数据。而使用久其
唯数则可以将全国交通所有的明细数据进行集中的存储,并支持用户实时查询任意时间段的明细记录。
3、计算密集型数据预处理平台
数据预处理是数据分析必不可少的前奏,其重要性甚至大于数据分析结果本身。利用分布式计算技术,可实现超大规模
数据复杂的预处理过程,然后将处理后的结果数据装载到传统的关系型数据库中,从而可充分利用现有的成熟分析工具和分
析方法进一步加工处理和可视化展现。
数据预处理包括数据的分拣/过滤、排序、转换、清洗、去重、汇总/聚合和加载等操作,利用Hadoop群集分布式处理和
并行计算特征,可以将数据预处理工作交给Hadoop群集完成。
例如通信企业通过网络交换机可以获取用户的上网访问日志信息,这些日志信息记录了用户访问的每一个IP地址,这
为用户行为分析提供了有力的数据基础。但是这些访问日志数据规模极大,用传统的技术方案完成用户行为模式的挖掘耗
费时间接近天文数字,而采用久其唯数后,可以将这个数据挖掘和预处理的时间降低到分钟级,从而实现准实时的数据分
析和挖掘。
11
用大数据技术帮助大型组织实现信息化升级
3.3 久其唯数总体框架图
久其唯数总体框架图如下:
从上述的系统框架图可以看出,整个平台可以划分为五大部分:
(1)基于Hadoop的分布式大数据存储与处理平台:主要包括面向分布式环境的超大规模数据采集和数据存储到
Hadoop集群处理;对加载到Hadoop集群中的数据在加载过程中的数据预处理(批计算引擎),以及面向Hadoop集群的系统
管理和监控等三大功能模组。
(2)统一的数据整合ETL工具:既支持传统关系数据库的数据提取、清洗/转换和加载处理,也支持将外部实时数据
(例如传感器采集的数据)以短间隔定期(比如每间隔1分钟)或实时数据流形式加载到Hadoop集群中,还支持从Hadoop集
群中提取、整合和进一步加工处理数据的ETL工具。
(3)大数据平台的监控与管理工具:大数据平台是一个复杂的IT系统,如果没有一些自动化的管理工具只依赖人工的
管理和维护是很难想象的,平台的监控和管理工具就是针对平台的运行、调度、日常调优和运维工作提供便利的自动化工具
包,以降低平台的使用和管理成本。
(4)统一数据查询引擎:统一数据查询引擎是一个通用的数据提供组件,负责向“数据可视化和分析展现工具”提供
统一的数据访问和数据封装服务,它既可以针对传统的关系数据库进行查询访问,也可以直接从Hadoop集群中的超大规模
结构化数据查询和获取用户指定的数据,最终提供给“数据可视化和分析展现工具”进行展现和可视化。
(5)数据可视化和分析展现工具:这是传统BI范畴内的分析展现工具。不管大数据如何处理,其分析处理的结果最终
还是通过报表、数字仪表盘、数据专题地图、分析报告等方式呈现出来才能被用户理解和接受,这是数据可视化和分析展现
工具要完成的事情。
3.4 久其唯数突破的关键技术
久其唯数完成了许多关键技术的突破,主要包括:
(1)突破超大规模数据的实时查询技术:对于超大规模的数据集的查询秒级实现,用户不用关心数据具体存放在关系
数据库中还是Hadoop集群中。
12
Valueinsight技 术 白 皮 书久其唯数
(2)超大规模内存计算技术:通过内存计算技术,解决MapReduce数据落地带来的性能损失,性能可以达到10~100倍的
提升。
(3)在大数据环境下构建常用的数据挖掘模型库,如:聚类分析,关联规则,动态推荐等算法在Hadoop分布式集群
上的实现。
(4)实现纯Web自助式数据分析和处理:大数据的处理者无需拥有hadoop专业技术知识,通过在线帮助或简单培训,
即可在浏览器上进行自助式在线分析和处理。
(5)云化部署:基于Web管理界面完成,无需为某一类数据就新建一整套Hadoop软硬件产品。
(6)大数据生命周期自动化管理:支持各种数据源自动化的数据生命周期管理,免去收到维护、归档、清理过期数据
的困难和数据安全风险。
3.5 久其唯数的价值交付
久其唯数可以为企业带来如下价值:
1、数据资产化,信息部门从“成本中心”转向“利润中心”
在大数据时代,数据渗透各个行业,渐渐成为企业或政府部门的战略资产,掌控数据就可以支配市场,为组织带来巨大
的投资回报。
通过久其唯数可以全面提升组织收集和运用数据的能力,从而将组织的IT部门从传统的“成本中心”转变为“利润中
心”,将数据转化为组织的核心资产。
2、数据集中化,建立企业或政府部门私有的大数据中心
无论是大型企业还是政府部门,其各级机构的各种业务系统每天都在生成大量的过程型、操作型明细数据记录。由于技
术手段和成本因素,分散在各个业务系统中的数据无法形成集中的资源池、不能互联互通,严重影响对大数据的统一管理与
价值挖掘。
借助于久其唯数,可以实现大型企业或政府部门全国范围内的大集中,实现数据资源的大集中和统一管理,这是组织利
用大数据技术的第一步。在此之上对数据资源的价值进行挖掘,成为有价值的数据资产。
3、决策智能化,组织战略从“业务驱动”转向“数据驱动”
智能化决策是组织未来发展方向,在一个快速变化的时代,如果决策者只能凭着主观经验对市场的估测进行决策,将使
组织面临很大的风险。
通过久其唯数,各类组织可以轻松地获取内部和外部的各类数据,获取有价值的信息。通过对这些海量数据的挖掘,可
以推动组织决策机制从“业务驱动”向“数据驱动”转变,从而对外部环境的变化提前作出预判,快速应对,可以大大提升
决策的有效性。
4、成本可控化,以低成本实现系统的高负荷、高性能、高可靠运行
随着系统功能、技术复杂度越来越高,带来的IT运维成本急速上升,如何驾驭复杂性是IT应用系统建设无法回避的问
题,业务应用(数据和功能)可以越来越复杂,核心技术和架构必须越来越简单。通过久其唯数,可以帮助企业或政府部门
有效地控制信息化建设成本和复杂性,在廉价设备的基础上为超大规模数据的采集、存储、挖掘和分析提供了低成本的解决
方案,帮助企业或政府部门去IOE(I:IBM,O:Oracle,E:EMC)化。
13
用大数据技术帮助大型组织实现信息化升级
4 信息化组织通往大数据之路
组织信息化建设进行大数据转型的工作不是一蹴而就的,不仅需要引入新的大数据技术,而且也需要培养大数据管理和
分析方面的人才,因此组织信息化引入大数据技术通常可以分为三个步骤:
1、播种
首先引入大数据平台,并选择关键的业务进行技术验证,同时培养相关的技术人才,在技术验证的过程中积累经验,为
组织全面应用大数据技术做好人才储备。
2、实验
完成技术验证工作后,即可选择领导最关注的部分应用数据进行迁移和整合,先从局部进行决策分析业务的应用建设,
以最短的时间呈现大数据分析的价值。
3、全面推广
在成功应用部分大数据分析应用之后,即可考虑决策分析应用的全面推广,将分析业务服务化,为组织的各级领导、各
级管理人员提供智能化的决策支持。
大数据应用的建设和运维是一个迭代演进、螺旋上升的过程,正如组织的持续运营一样,这个过程没有终点,必须持续
的优化和升级才能发挥其最大价值,但“无限风光在险峰”,只有大数据技术的深入应用才能将企业或组织的管理提升到崭
新的境界。
5 结束语
大数据时代已经来临,对大数据的利用将成为各类组织提升效率、使战略更为有效的关键要素。组织的决策正在从“业
务驱动”转变为“数据驱动”。在未来3到5年,我们将会看到那些真正理解大数据并能利用大数据进行价值挖掘的组织和不
懂得大数据价值挖掘组织之间的差距。真正能够利用好大数据并将其价值转化成生产力的组织必将获得强有力的优势,更好
地实现自己的战略和目标。
久其将紧随大数据技术发展的步伐,不断创新和完善久其唯数,为用户提供高可用性的、从产品到服务一体化的解
决方案,为用户更快地应用大数据技术、弥合应用与技术之间的鸿沟提供强有力的技术支撑,帮助组织更好地挖掘数据
的价值。