【大数据产品整体概念案例解决方案】之亦策软件与宝信数据成功案例分享

点击联系发帖人 时间：2016-06-13 07:43

整体上市案例

Sense Desktop互动实践讲习1
北京：活动时间：日
第一场：9:00-12:00 am
第二场： 14:00-17:00 pm活动地点：北京市海淀区中关村南大街3号海淀科技大厦5层2
上海：活动时间：日活动地点：上海市长宁区安西路100号构建属于你自己的可视化仪表板，改变数据发现的方法，这一切仅需半天时间！Qlik Sense 是下一代自助式数据可视化应用，可便捷地创建一系列灵活的交互可视化图表, 从而直观地探索及发现数据，来学习:创建功能强大的拖放可视化图表深入探索数据发现业务中的异常从各个角度发现机会*与会者需携带笔记本电脑。(64位 Windows 操作系统环境)*点击“阅读原文”进入报名页面为了保证授课效果，每场只有20个名额，先报名先得。进入页面后，请准确填写您的申请信息，我们会在两个工作日内与您确认参加信息，十分感谢！亦策大数据分析(ebistrategy1)　
　文章为作者独立观点，不代表微头条立场
的最新文章
016年5月6日石家庄市企业家协会智能制造联盟暨信息化专家委员会成立大会召开。上海亦策软件科技有限公司作为本次委员会成立的共同发起人之一，也在现场与大家一起探讨了企业信息化建设。据数据统计，金融行业已成为中国大数据IT应用投资规模的第三位，在大数据应用综合价值方面相当有潜力，毋庸置疑的，金融行业的大数据时代已经来临。在QlikViewServer和QlikSense Server实际运行中，会碰到无法正常发布和浏览的情况作为企业，如何从一堆庞杂的数据中发掘商业价值？如何利用大数据更快速有效地解决问题，提供最具价值的业务解决方案呢？答案在——3月17日的数据分析沙龙每年二月，Gartner会发布对商业智能和分析平台的市场评估。Qlik已经连续6年一直定位在“领导者”象限。今天，你/呲牙了吗！2016年，中国95后人口将达1亿。16-21岁的95后成了青春代言人，社会和媒体的关注点。逗逼？二次元？冷漠无所谓？……社会给他们贴了无数标签。然而，大数据告诉你：真正的95后长这样！传说，70后的在线消费行为表现出以家庭为核心，高消费和高品位；
80后是消费主力，讲究实用和个性；
90后是最年轻的消费者，追求个性，对新兴商品接受度很高。
你是属于哪种呢？11月30日，北京现空气重污染过程，这是自今年3月31日《北京市空气重污染应急预案》修订后，首次启动橙色级别的预警，也是今年首个空气重污染橙色预警。小会场大体验 11月你不能错过的精品课程万圣节的趣味大数据，懂你爱搞鬼的小心思！ Qlik
Sense Desktop互动实践讲习1　北京：　活动时间：日　　　　　　　　（转自：央广天下财经）亦策软件EBI-Strategy　　一家国内领先的专注于大数据整体解决方案的高科技企业Qlik
Sense Desktop互动实践讲习1　北京：　活动时间：日　　　　　　　　Qlik Sense拥有了原生的地图控件，得知这个喜讯的朋友们一定十分高兴，是不是都摩拳擦掌地准备体验一下其地图的展示能力了呢，本期让我们一起来感受一番。透过 Qlik Visualize Your World 虚拟论坛，您将了解我们如何能够帮助您成为一家灵活的数据推动型企业，充分发挥企业的集体智慧。
10 月 27 日/星期四/下午 2:00 – 3:302015
中秋&十一旅游交通预测分析今年中秋&“十一”长假期间，各城市交通会出现驼峰式拥堵趋势；而杭州西湖我从未见过如此实用之内容！有任何疑问都可以拨打400-676-1711免费咨询电话没错！你翘首期盼的中秋终于来啦！Qlik Sense 9月上海场互动实践讲习班落幕，下期时间敬请关注微信。9月15日，亦策软件携手中国化学制药工业协会，在石家庄翠屏山迎宾馆召开了第一期两化融合主题研讨会，旨在推进大数据时代医药行业的商业智能实践。亦策软件—大数据整体解决方案供应商，官网全新改版：Excel做数据源是常用分析数据的一种方式。今天透露几个小诀窍来处理奇特格式的excel报表。【若需要本教程素材可回复公众号 Excel+您的邮箱，将第一时间为您发送】今天，小E就和大家一起讨论下，关于上海拍牌到底有多难？北京场：日；上海场：日Qlik Sense 2.0 版本增加了对数据源分析的功能-Smart Data Load, 帮助用户更好地处理数据表之间的关联关系，业务人员可借助Smart Data Load快速加载分析手中的数据，增强用户体验性。你知道你在做什么样的数据吗？如何在图表中对数据进行编码？将数据显示到一个可视化的图表中，这些都是你的基本显示Data Market是Qlik Sense 2.0之后的新功能，Qlik Sense由此可以原生支持由Qlik提供的公共数据，如：商务、货币、人口、社会、天气、经济，总共六大主题。（内有视频教程，建议在WIFI环境下浏览）北京场：日，上海场：2015年9月敬请期待“所谓数据可视化并不仅仅是根据数据做出来非常漂亮的图表，真正的可视化是对于不同数据来源、数据不同阶段都能形成自己的洞见，再把它呈现出来，这才是真正的可视化。” Terry Smagh对于可视化提出了如此见解。可视化分析并不是简单地将单一来源的数据用非常漂亮的图展现出来，而是对不同来源的数据进行分析，形成企业自己的洞ebistrategy1亦策软件是一家国内领先的专注于商业智能信息化服务领域，为客户提供商业智能领域端到端的解决方案的高科技企业。通过本微信账号，您可以获取BI领域最新最实用的资讯，qlikview项目实施技巧，专业咨询服务等~热门文章最新文章ebistrategy1亦策软件是一家国内领先的专注于商业智能信息化服务领域，为客户提供商业智能领域端到端的解决方案的高科技企业。通过本微信账号，您可以获取BI领域最新最实用的资讯，qlikview项目实施技巧，专业咨询服务等~软件外包服务
浪潮云海大数据一体机成功构建湖北工商信用公示信息系统建设，为湖北工商行政管理局信...
浪潮解决方案实例
800-860-6708
400-860-6708&
400-860-0011
欢迎关注浪潮解决方案
扫一下，马上了解浪潮解决方案
浪潮服务器
浪潮云服务
浪潮解决方案
浪潮智慧城市
浪潮信息安全
浪潮存储产品
浪潮税务云
浪潮通信云比特客户端
您的位置：
详解大数据
详解大数据
详解大数据
详解大数据
引领云计算大数据时代新“浪潮”
　　随着、的到来，特别是智慧城市建设的兴起，云计算、应用热潮已经掀开了新的一页。作为国内领先的云计算整体解决供应商和云服务商，浪潮通过，已经具备了涵盖IaaS(基础设施即服务)、PaaS(平台即服务)、(软件即服务)三个层面的云计算和大数据整体解决方案服务能力，正在引领云计算大数据时代的新“浪潮”。
　　创新是生命线：研究开发经费占比近10%
　　在新的发展时期，对大数据的处理和分析将成为新一代信息技术融合发展的核心支撑，而云计算则为这些海量的、多样化的大数据提供和运算的支撑平台。
　　“全球新产生的数据年增40%，信息总量每两年就可以翻一番，到2020年预计达35ZB，如果存储到光盘里达吨，相当于424艘尼米兹号航母的”，浪潮软件云平台产品部总经理孙思清说。
　　浪潮再次依靠自主创新引领时代的发展，突破了云计算与大数据的核心技术，并帮助政府和利用云计算和大数据不断创新应用，为经济运行和商业活动提供决策支持，提高政府公共服务能力和企业的核心竞争力，同时快速推动自身向服务转型，提供以云计算和大数据为核心的IT服务。
　　“做别人没做的是创新，模仿学会了是创新，今天比昨天进步是创新，不断持续改进也是创新”成为浪潮人的共识。
　　浪潮集团副总裁左佰臣分析说，按照国际经验，技术研发投入占销售额比例在1%以下的企业是难以长期生存的，比例为2%左右的企业仅可以简单维持，只有比例达到5%的企业才具有竞争力。“浪潮研发投入除了年度投入充足的预算外，对于随时发生评估通过的创新项目保证经费支持。连续多年研究开发经费占销售收入&6%，目前接近10%”。
　　审视浪潮的发展史，就是一部创新的历史。第一台浪潮牌微机、全球第一个中文寻呼机和标准、中国第一台、中国第一台32路高端容错计算机、中国第一台PB级海量存储、中国第一款云计算等，无不在企业发展的拐点使浪潮实现跨越式发展，这是创新给浪潮带来的勃勃生机。在大数据时代下浪潮核心技术创新能力不断提高。
　　左佰臣告诉记者，如今，社会生活进入大数据时代，全球所有信息数据中90%产生于过去两年，大数据在两个方面表现出最重要的价值，一是促进信息消费，加快经济转型升级;二是关注社会民生，带动社会管理创新。“基于这种认识，浪潮积极通过大数据技术推动智慧政府、智慧企业、智慧城市等领域的商业模式创新”。
　　云服务：从买产品到买服务
　　浪潮集团董事长孙丕恕表示，云计算时代的到来给全球产业格局带来重大变革，云计算技术的应用使得用户将由购买IT产品构建自有的向购买计算服务转变，云服务具有信息资源集中、业务整合的技术优势，能为政府实现公共服务和管理职能的转变，提升政府服务水平提供技术保障。
　　可以说，浪潮在政务和企业的云服务模式创新方面都做出了许多具有借鉴意义的典型案例。
　　值得一提的是，浪潮打造了极具创新性的第四代云计算中心。云计算中心是云服务发展的基础，浪潮遵循国际领先标准建成了亚洲最大的第四代云计算中心。浪潮第四代云计算中心具有永远在线、智能监控、自然等三大特点和技术优势。通过自然制冷的方式，可以大幅降低能耗。
　　“以目前山东省省直单位服务器约有18000台的总量计算，服务器在各自数据中心独立运行的情况下，一年需要用电9460万度，而在该中心集中运行一年只需6622万度，仅用电量每年就可节省2838万度，节约电能30%以上”，左佰臣告诉记者。
　　据了解，作为中国领先的云计算整体解决方案供应商和云服务商，浪潮云服务全国布局已初步形成，已经与贵州、海南、济南、常德、绵阳等四十多个省、市达成了政府整体购买云服务的合作协议，并在全国规划建设了布局北至哈尔滨，南至海南的10大数据中心，率先形成了我国云服务的技术、安全、管理、计费规范和标准，为政府购买云服务树立了样板。前不久，浪潮还提出了以“云中心、云服务、、云伙伴”为四大方向的云海战略，计划未来为100个城市提供云服务。
　　着眼大数据：打造开放的整合与开发平台
　　大数据技术和业务的兴起，引发了社会对数据开放的强烈需求，掌握重要数据资源的政府成为开放信息资源的带头人，部分国家已将政府数据开放纳入了国家大数据发展战略。
　　浪潮看准这一市场需求，在多年政府与行业建设经验的基础上，结合云计算、大数据、社交网络、情景感知、开放平台等先进技术和理念设计，推出了可支持百万级以上高并发访问及PB级大数据处理的云海IOP平台。
　　IOP能够有效打破政府与企业内部之间的信息壁垒，将不同业务系统的数据资源有机整合到统一的数据平台并实现高效共享和分析利用。
　　在数据平台基础之上，IOP还提供了各种开发工具，企业和个人开发者可以利用这些工具及开放数据，开发各种应用。
　　在数据收集、整合方面，IOP大数据平台实现了从数据资源到数据价值的全生命周期的闭环管理，从数据源、数据目录体系、元数据、数据管理和数据服务，都提供了完整的软件工具和解决方案。
　　在数据应用、开发方面，IOP大数据处理平台通过开放平台的方式，依托政府和企业信息的服务资源，利用政府与社会的开放数据，汇聚大量的应用开发者，创造政府、企业与社会共同参与的信息化建设新模式，为政府和企业信息化建设和发展带来新的活力。
　　记者了解到，目前，IOP平台已在警务云、新商盟、邮上海等项目中成功应用。
　　据国内有关机构初步预测，到2015年，我国云计算大数据产业链规模将达7500亿元至1万亿元。IT行业将进入一个新的黄金时代。在云计算、大数据时代下的浪潮将继续坚持创新发展，以极具前瞻性的技术创新引领转型升级“浪潮”。
相关文章：
[ 责任编辑：杨瑗嘉 ]
SAPPHIRE NOW大会为…
甲骨文的云战略已经完成第一阶段…
软件信息化周刊
比特软件信息化周刊提供以数据库、操作系统和管理软件为重点的全面软件信息化产业热点、应用方案推荐、实用技巧分享等。以最新的软件资讯，最新的软件技巧，最新的软件与服务业内动态来为IT用户找到软捷径。
商务办公周刊
比特商务周刊是一个及行业资讯、深度分析、企业导购等为一体的综合性周刊。其中，与中国计量科学研究院合力打造的比特实验室可以为商业用户提供最权威的采购指南。是企业用户不可缺少的智选周刊！
比特网络周刊向企业网管员以及网络技术和产品使用者提供关于网络产业动态、技术热点、组网、建网、网络管理、网络运维等最新技术和实用技巧，帮助网管答疑解惑，成为网管好帮手。
服务器周刊
比特服务器周刊作为比特网的重点频道之一，主要关注x86服务器，RISC架构服务器以及高性能计算机行业的产品及发展动态。通过最独到的编辑观点和业界动态分析，让您第一时间了解服务器行业的趋势。
比特存储周刊长期以来，为读者提供企业存储领域高质量的原创内容，及时、全面的资讯、技术、方案以及案例文章，力求成为业界领先的存储媒体。比特存储周刊始终致力于用户的企业信息化建设、存储业务、数据保护与容灾构建以及数据管理部署等方面服务。
比特安全周刊通过专业的信息安全内容建设，为企业级用户打造最具商业价值的信息沟通平台，并为安全厂商提供多层面、多维度的媒体宣传手段。与其他同类网站信息安全内容相比，比特安全周刊运作模式更加独立，对信息安全界的动态新闻更新更快。
新闻中心热点推荐
新闻中心以独特视角精选一周内最具影响力的行业重大事件或圈内精彩故事，为企业级用户打造重点突出，可读性强，商业价值高的信息共享平台；同时为互联网、IT业界及通信厂商提供一条精准快捷，渗透力强，覆盖面广的媒体传播途径。
云计算周刊
比特云计算周刊关注云计算产业热点技术应用与趋势发展，全方位报道云计算领域最新动态。为用户与企业架设起沟通交流平台。包括IaaS、PaaS、SaaS各种不同的服务类型以及相关的安全与管理内容介绍。
CIO俱乐部周刊
比特CIO俱乐部周刊以大量高端CIO沙龙或专题研讨会以及对明星CIO的深入采访为依托，汇聚中国500强CIO的集体智慧。旨为中国杰出的CIO提供一个良好的互融互通、促进交流的平台，并持续提供丰富的资讯和服务，探讨信息化建设，推动中国信息化发展引领CIO未来职业发展。
IT专家新闻邮件长期以来，以定向、分众、整合的商业模式，为企业IT专业人士以及IT系统采购决策者提供高质量的原创内容，包括IT新闻、评论、专家答疑、技巧和白皮书。此外，IT专家网还为读者提供包括咨询、社区、论坛、线下会议、读者沙龙等多种服务。
X周刊是一份IT人的技术娱乐周刊，给用户实时传递I最新T资讯、IT段子、技术技巧、畅销书籍，同时用户还能参与我们推荐的互动游戏，给广大的IT技术人士忙碌工作之余带来轻松休闲一刻。
微信扫一扫
关注ChinabyteQlikView携手Nprinting　完美打造解决方案亦策软件售前顾问张帆专业从事BI领域相关工作，丰富的项目管理及实施经验，熟悉多种数据分析平台，对传统及新型BI有较深刻的理解，可以针对不同客户群体定制不同的数据应用架构方案1
应用场景简述客户需求最近发现有一些客户，随着对QlikView的应用越来越深，对QlikView的要求也越来越高，下面我们来看一下客户的需求。　　1.
前端可以任意选择要展示的指标维度，并展示成列表或者透视表（AD-HOC）。　　2.
前端可以针对主要维度进行维度值选择过滤（例如选择具体年份、地区等）。　　3. 要求可以将自由组合的报表导出成多种格式（例如EXCEL、WORD、PDF等）。　　4. 底层有几千万数据，如果选择了明细数据，要求把大数据量的明细数据也可以导出。需求及难点分析1.　需求分析这个需求的前三条其实很容易实现，QlikView有AD-HOC的制作方法，可以让客户自由选择要展现的指标维度，将其任意组合成需要的报表样式，并且右键选择导出或者制作导出按钮，很容易就可以将展现出来的报表导出成excel。问题难点的关键在于第四条，客户的底层有千万级的数据，这意味着不仅仅是汇总级数据的导出，如果客户选择了明细的数据展示，要将几百甚至上千万的明细数据导出来。2.　难点分析　　QlikView是高性能的内存数据分析平台，可以很快的运算出结果，但是本需求主要的难点是大数据量的导出，大数据量的导出瓶颈在于硬件的I/O和网络的传输速度，导出的文件本身就很大，如果用普通的方法，客户右键导出，会出现很长时间的等待，并且客户在等待过程中无法在QVW中执行任何操作，用户体验会非常差。如何提高用户体验并且实现客户需求成为了解决方案的主要目标。2
　解决方案简述QlikView携手Nprinting完美打造解决方案首先我们要知道Nprinting本身是很强大的定制化导出任务工具，可以自由制作导出的模板，并制定excel、pdf、ppt、html、csv等多种导出格式。既然已经知道了导出的瓶颈，那么我们使用Nprinting在后台处理导出任务，将查询展现与导出既完美结合又独立处理各自任务。具体方案如下：1.
使用QV实现AD-HOC自由查询功能2.
限制前端报表展示预览行数，提高用户使用感受3.
制作Nprinting文件，定义导出模板，导出任务4.
将选择的过滤条件及展现的指标维度传给Nprting，当客户选择导出时，Nprinting在后台执行导出任务，不影响客户前端操作，客户只需要等待后台执行结果即可3
　制作过程详解准备AD-HOC基础QVW这里介绍主要功能(本方案QV主要介绍QV与Npinting集成应用，基础AD-HOC制作方法不在这里讲述了) ：1.　有维度选择区域跟指标选择区域，初始展示区域空白2. 　任意选择要展示的指标跟维度，下方出现所选指标维度的透视表展示3. 　将准备好的QVW保存，要记得此路径，以后会用到的Nprinting Server 准备1.　安装Nprinting Server 输入产品序列号，启动NPrinting服务2.　配置并确认NPrinting Server启动Nprinting Designer准备及配置1.　安装并启动Nprinting Designer2.　新建Nprinting文件，并连接QVW源注意：名称是可以更改的，默认的名称就叫做连接3.　新建报表模板例如要导出的文件是excel，则选择Excel报表，并新建模板4.　新建任务5.　运行任务6.　进入Excel输出文件夹，打开Excel查看运行结果（到这里有关Nprinting的基础准备都已经完成了）前端QVW准备1.　将之前的基础版QVW复制一个，起名叫展示版注意：这个QVW是真正发布给客户前端应用的QVW2.　限制列表预览行数，这里设为１００行3.　切换到web模式，新建Nprinting任务及Nrinting执行清单控件（右键新建工作表对象-扩展程序对象）4.　Runtask属性设置4
　方案演示1选择前端要展示的指标维度2点击Runtask从后台Nprinting运行导出任务3可以看运行状态，有一个任务正在运行4任务运行完毕5去输出文件夹查看运行结果可以看到总共导出１万多行数据6可以查看一下ｌｏｇ文件，从ｌｏｇ中我们可以看出，任务是根据前端所选字段进行输出的，任务总共花了１５秒（因为数据量不大，如果数据到达几百万这个时间是会增加的）5
　总结Npringting本身是很强大的静态文件制作工具，可以任意设计组合要展示的图形报表，并以PDF、WORD、EXCEL、PPT、HTML等格式输出本方案主要是为了解决大数据导出等待时间过长的问题，但是制作方法中用到的QVW跟Nprinting的灵活集成，让我们的Nprinting有了动态输出的能力，给了Nprinting更多应用的可能希望本方案用到的技术能够给大家更多的启发，在今后项目中有更加灵活的应用亦策软件EBI-Strategy　　一家国内领先的专注于大数据整体解决方案的高科技企业,为客户提供大数据分析平台端到端的解决方案。咨询电话：400-676-1711感谢关注！亦策大数据分析(ebistrategy1)　
　文章为作者独立观点，不代表微头条立场
的最新文章
016年5月6日石家庄市企业家协会智能制造联盟暨信息化专家委员会成立大会召开。上海亦策软件科技有限公司作为本次委员会成立的共同发起人之一，也在现场与大家一起探讨了企业信息化建设。据数据统计，金融行业已成为中国大数据IT应用投资规模的第三位，在大数据应用综合价值方面相当有潜力，毋庸置疑的，金融行业的大数据时代已经来临。在QlikViewServer和QlikSense Server实际运行中，会碰到无法正常发布和浏览的情况作为企业，如何从一堆庞杂的数据中发掘商业价值？如何利用大数据更快速有效地解决问题，提供最具价值的业务解决方案呢？答案在——3月17日的数据分析沙龙每年二月，Gartner会发布对商业智能和分析平台的市场评估。Qlik已经连续6年一直定位在“领导者”象限。今天，你/呲牙了吗！2016年，中国95后人口将达1亿。16-21岁的95后成了青春代言人，社会和媒体的关注点。逗逼？二次元？冷漠无所谓？……社会给他们贴了无数标签。然而，大数据告诉你：真正的95后长这样！传说，70后的在线消费行为表现出以家庭为核心，高消费和高品位；
80后是消费主力，讲究实用和个性；
90后是最年轻的消费者，追求个性，对新兴商品接受度很高。
你是属于哪种呢？11月30日，北京现空气重污染过程，这是自今年3月31日《北京市空气重污染应急预案》修订后，首次启动橙色级别的预警，也是今年首个空气重污染橙色预警。小会场大体验 11月你不能错过的精品课程万圣节的趣味大数据，懂你爱搞鬼的小心思！ Qlik
Sense Desktop互动实践讲习1　北京：　活动时间：日　　　　　　　　（转自：央广天下财经）亦策软件EBI-Strategy　　一家国内领先的专注于大数据整体解决方案的高科技企业Qlik
Sense Desktop互动实践讲习1　北京：　活动时间：日　　　　　　　　Qlik Sense拥有了原生的地图控件，得知这个喜讯的朋友们一定十分高兴，是不是都摩拳擦掌地准备体验一下其地图的展示能力了呢，本期让我们一起来感受一番。透过 Qlik Visualize Your World 虚拟论坛，您将了解我们如何能够帮助您成为一家灵活的数据推动型企业，充分发挥企业的集体智慧。
10 月 27 日/星期四/下午 2:00 – 3:302015
中秋&十一旅游交通预测分析今年中秋&“十一”长假期间，各城市交通会出现驼峰式拥堵趋势；而杭州西湖我从未见过如此实用之内容！有任何疑问都可以拨打400-676-1711免费咨询电话没错！你翘首期盼的中秋终于来啦！Qlik Sense 9月上海场互动实践讲习班落幕，下期时间敬请关注微信。9月15日，亦策软件携手中国化学制药工业协会，在石家庄翠屏山迎宾馆召开了第一期两化融合主题研讨会，旨在推进大数据时代医药行业的商业智能实践。亦策软件—大数据整体解决方案供应商，官网全新改版：Excel做数据源是常用分析数据的一种方式。今天透露几个小诀窍来处理奇特格式的excel报表。【若需要本教程素材可回复公众号 Excel+您的邮箱，将第一时间为您发送】今天，小E就和大家一起讨论下，关于上海拍牌到底有多难？北京场：日；上海场：日Qlik Sense 2.0 版本增加了对数据源分析的功能-Smart Data Load, 帮助用户更好地处理数据表之间的关联关系，业务人员可借助Smart Data Load快速加载分析手中的数据，增强用户体验性。你知道你在做什么样的数据吗？如何在图表中对数据进行编码？将数据显示到一个可视化的图表中，这些都是你的基本显示Data Market是Qlik Sense 2.0之后的新功能，Qlik Sense由此可以原生支持由Qlik提供的公共数据，如：商务、货币、人口、社会、天气、经济，总共六大主题。（内有视频教程，建议在WIFI环境下浏览）北京场：日，上海场：2015年9月敬请期待“所谓数据可视化并不仅仅是根据数据做出来非常漂亮的图表，真正的可视化是对于不同数据来源、数据不同阶段都能形成自己的洞见，再把它呈现出来，这才是真正的可视化。” Terry Smagh对于可视化提出了如此见解。可视化分析并不是简单地将单一来源的数据用非常漂亮的图展现出来，而是对不同来源的数据进行分析，形成企业自己的洞ebistrategy1亦策软件是一家国内领先的专注于商业智能信息化服务领域，为客户提供商业智能领域端到端的解决方案的高科技企业。通过本微信账号，您可以获取BI领域最新最实用的资讯，qlikview项目实施技巧，专业咨询服务等~热门文章最新文章ebistrategy1亦策软件是一家国内领先的专注于商业智能信息化服务领域，为客户提供商业智能领域端到端的解决方案的高科技企业。通过本微信账号，您可以获取BI领域最新最实用的资讯，qlikview项目实施技巧，专业咨询服务等~当前位置： →
4位专家解读2015大数据技术进展
2015年，整个IT技术领域发生了许多深刻而又复杂的变化。本文是大数据解读篇，在这篇文章里我们将回顾2015展望2016，看看过去的一年里广受关注的技术有哪些进展，了解下数据科学家这个职业的火热。
在关键技术进展部分，从大数据生态圈众多技术中选取了Hadoop、Spark、Elasticsearch和Apache Kylin四个点，分别请了四位专家：Hulu的董西成、明略数据的梁堰波、精硕科技的卢亿雷、eBay的韩卿，来为大家解读2015里的进展。=
　　【回顾2015】
1，关键技术进展：
Hadoop作为大数据平台中最基础与重要的系统，在2015年提高稳定性的同时，发布了多个重要功能与特性，这使得Hadoop朝着多类型存储介质和异构集群的方向迈进了一大步。
HDFS 之前是一个以磁盘单存储介质为主的分布式文件系统。但随着近几年新存储介质的兴起，支持多存储介质早就提上了日程。如今，HDFS 已经对多存储介质有了良好的支持，包括 Disk、Memory 和 SSD 等，对异构存储介质的支持，使得 HDFS 朝着异构混合存储方向发展。目前HDFS支持的存储介质如下：
ARCHIVE：高存储密度但耗电较少的存储介质，通常用来存储冷数据。
DISK：磁盘介质，这是HDFS最早支持的存储介质。
SSD：固态硬盘，是一种新型存储介质，目前被不少互联网公司使用。
RAM_DISK ：数据被写入内存中，同时会往该存储介质中再(异步)写一份。
YARN作为一个分布式数据操作系统，主要作用是资源管理和资源调度。在过去一年，YARN新增了包括基于标签的调度、对长服务的支持、对 Docker 的支持等多项重大功能。
基于标签的调度，使得 YARN 能够更好地支持异构集群调度。它的基本思想是，通过打标签的方式为不同的节点赋予不同的属性，这样，一个大的Hadoop集群按照节点类型被分成了若干个逻辑上相互独立(可能交叉)的集群。这种集群跟物理上独立的集群很不一样，用户可以很容易地通过动态调整 label，实现不同类型节点数目的增减，这具有很好的灵活性。
对长服务的支持，使得YARN逐渐变为一个通用资源管理和调度系统。目前，YARN既支持像类似 MapReduce，Spark 的短作业，也支持类似 Web Service，MySQL 这样的长服务。支持长服务是非常难的一件事情，YARN 需要解决以下问题：服务注册、日志滚动、ResourceManager HA、NodeManager HA(NM 重启过程中，不影响 Container)和 ApplicationMaster 永不停止，重启后接管之前的 Container。截止2.7.0版本，以上问题都已经得到了比较完整的解决。
对Docker的支持，使得YARN能够为上层应用提供更好的打包、隔离和运行方式。YARN通过引入一种新的ContainerExecutor，即DockerContainerExecutor，实现了对Docker的支持，但目前仍然是alpha版本，不建议在生产环境中使用。
在 2015 年，HBase 迎来了一个里程碑&&HBase 1.0 release，这也代表着 HBase 走向了稳定。 HBase新增特性包括：更加清晰的接口定义，多 Region 副本以支持高可用读，Family 粒度的 Flush以及RPC 读写队列分离等。
2015年的Spark发展很快，JIRA数目和PR数目都突破了10000，contributors数目超过了1000，可以说是目前最火的开源大数据项目。这一年Spark发布了多个版本，每个版本都有一些亮点：
●2014年12月，Spark 1.2发布引入ML pipeline作为机器学习的接口。
●2015年3月，Spark 1.3发布引入了DataFrame作为Spark的一个核心组件。
●2015年6月，Spark 1.4发布引入R语言作为Spark的接口。R语言接口在问世一个多月之后的调查中就有18%的用户使用。
●2015年9月，Spark 1.5发布。Tungsten项目第一阶段的产出合并入DataFrame的执行后端，DataFrame的执行效率得到大幅提升。
●2016年1月，Spark 1.6发布引入Dataset接口。
Spark目前支持四种语言的接口，除了上面提到的R语言的使用率以外，Python的使用率也有很大提升，从2014年的38%提升到2015年的58%;而Scala接口的使用率有所下降，从84%下降到71%。同时Spark的部署环境也有所变化，51%的部署在公有云上，48% 使用standalone方式部署，而在YARN上的只有40%了。可见Spark已经超越Hadoop，形成了自己的生态系统。而在形成Spark生态系统中起到关键作用的一个feature就是外部数据源支持，Spark可以接入各种数据源的数据，然后把数据导入Spark中进行计算、分析、挖掘和机器学习，然后可以把结果在写出到各种各样的数据源。到目前为止Spark已经支持非常多的外部数据源，像Parquet/JSON/CSV/JDBC/ORC/HBase/Cassandra/Mongodb等等。
上面这些调查数据来自美国，中国的情况有所区别，但是还是有一定的借鉴意义的。国内的Spark应用也越来越多：腾讯的Spark规模到了8000+节点，日处理数据1PB+。阿里巴巴运行着目前最长时间的Spark Job：1PB+数据规模的Spark Job长达1周的时间。百度的硅谷研究院也在探索Spark+Tachyon的应用场景。
Spark MLlib的ALS算法已经在很多互联网公司用于其推荐系统中。基本上主流的互联网公司都已经部署了Spark平台并运行了自己的业务。上面说的更多的互联网的应用，实际上Spark的应用场景有很多。在Databricks公司的调查中显示主要应用依次是：商务智能、数据仓库、推荐系统、日志处理、欺诈检测等。
除了互联网公司以外，传统IT企业也把Spark作为其产品的一个重要组成。IBM在今年6月的Spark summit期间宣布重点支持Spark这个开源项目，同时还开源了自己的机器学习系统SystemML并推进其与Spark的更好合作。美国大数据巨头Cloudera，Hortonworks和MapR都表示Spark是其大数据整体解决方案的核心产品。可以预见Spark是未来若干年最火的大数据项目。
在深度学习方面2015年可谓非常热闹，如Google开源其第二代机器学习系统TensorFlow，Facebook开源Torch和人工智能硬件服务器Big Sur等等。Spark社区也不甘落后，在1.5版本中发布了一个神经网络分类器MultiplayerPerceptronClassifier作为其深度学习的雏形。虽然这个模型还有很多地方需要优化，大家不妨尝试下，毕竟它是唯一一个基于通用计算引擎的分布式深度学习系统。
除了现在非常火的深度学习，在传统统计和机器学习领域，Spark这一年也有非常大的变化，包括GLM的全面支持，SparkR GLM的支持，A/B test，以及像WeightesLeastSquares这样的底层优化算法等。
Elasticsearch：
Elasticsearch 是一个可伸缩的开源全文搜索和分析引擎。它可以快速地存储、搜索和分析海量数据。Elasticsearch 基于成熟的 Apache Lucene 构建，在设计时就是为大数据而生，能够轻松的进行大规模的横向扩展，以支撑PB级的结构化和非结构化海量数据的处理。Elasticsearch生态圈发展状态良好，整合了众多外围辅助系统，如监控Marvel，分析Logstash，安全Shield等。近年来不断发展受到广泛应用，如Github、StackOverflow、维基百科等，是数据库技术中倍受关注的一匹黑马。
Elasticsearch在今年下半年发布了2.0版本，性能提升不少，主要改变为：
●Pipeline Aggregation
流式聚合，像管道一样，对聚合的结果进行再次聚合。原来client端需要做的计算工作，下推到ES，简化 client代码，更容易构建强大的查询。
●Query/Filter 合并
取消filters，所有的filter语句自动转换为query语句。在上下文语义是query时，进行相关性计算;上下文语义是filter时，简单排除b不匹配的doc，像现在的filter所做的一样。这个重构以为着所有的query执行会以最有效的顺序自动优化。例如，子查询和地理查询会首先执行一个快速的模糊步骤，然后用一个稍慢的精确步骤截断结果。在filter上下文中，cache有意义时，经常使用的语句会被自动缓存。
●可配置的store compression
存储的field，例如_source字段，可以使用默认的LZ4算法快速压缩，或者使用DEFLATE算法减少index size。对于日志类的应用尤其有用，旧的索引库在优化前可以切换到best_compression。
●Hardening
Elasticsearch运行于 Java Security Manager之下，在安全性上标志着一个巨大的飞跃。Elasticsearch难于探测，黑客在系统上的影响也被严格限制。在索引方面也有加强： indexing请求ack前，doc会被fsync，默认写持久化所有的文件都计算checksum，提前检测文件损坏所有的文件rename操作都是原子的(atomic)，避免部分写文件对于系统管理员来讲，一个需求较多的变化是，可以避免一个未配置的node意外加入Elasticsearch集群网络：默认绑定localhost only， multicast也被移除，鼓励使用unicast。
●Performance and Resilience
除上所述，Elasticsearch和Lucene还有很多小的变化，使其更加稳定可靠，易于配置，例如：
默认doc value，带来更少的heap usage，filter caching 更多使用 bitsets type mappings 大清理，更安全可靠，无二义性 cluster stat 使用diff进行快速变化传播，带来更稳定的大规模集群
●Core plugins
官方支持的core plugins同时发布，和Elasticsearch核心使用相同的版本号。
●Marvel 2.0.0 free to use in production
Marvel免费。
Apache Kylin：
Apache Kylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。最初于日开源，并于同年11月加入Aapche孵化器项目，并在一年后的2015年11月顺利毕业成为Apache顶级项目，是eBay全球贡献至Apache软件基金会(ASF)的第一个项目，也是全部由在中国的华人团队整体贡献至Apache的第一个项目。
在eBay，已经上线两个生产环境平台，有着诸多的应用，包括用户行为分析、点击分析、商户分析、交易分析等应用，最新的Streaming分析项目也已经上线。目前在eBay平台上最大的单个cube包含了超过1000亿的数据，90%查询响应时间小于1.5秒，95%的查询响应时间小于5秒。同时Apache Kylin在eBay外部也有很多的用户，包括京东、美团、百度地图、网易、唯品会、Expedia、Expotional等很多国内外公司也已经在实际环境中使用起来，把Apache Kylin作为他们大数据分析的基础之一。
过去的一年多是Apache Kylin发展的重要的一年：
●日，Kylin 代码在上正式开源
●日，正式加入Apache孵化器并正式启用Apache Kylin作为项目名称
●日，Apache Kylin v0.7.1-incubating发布，这是加入Apache后的第一个版本，依据Apache的规范作了很多修改，特别是依赖包，license等方面，同时简化了安装，设置等，并同时提供二进制安装包
●日，Apache Kylin v1.0-incubating正式发布，增强了SQL处理，提升了HBase coprocessor 的性能，同时提供了Zeppelin Interpreter等
●日，Apache Kylin与Spark，Kafka，Storm，H2O，Flink，Elasticsearch，Mesos等一起荣获InfoWorld Bossie Awards 2015：最佳开源大数据工具奖，这是业界对Kylin的认可
●日，Apache Kylin正式毕业成为Apache顶级项目
●日，Apache Kylin v1.2正式发布，这是升级为顶级项目后的第一个版本，提供了对Excel，PowerBI，Tableau 9等的支持，对高基维度增强了支持，修复了多个关键Bug等
●2016年，Apache Kylin将迎来重要的2.x版本，该版本对底层架构和设计作了重大重构，提供可插拔的设计及Lambda架构，同时提供对历史数据查询，Streaming及Realtime查询等，同时在性能，任务管理，UI等各个方面提供增强。
同时，过去一年也是社区发展的重要一年，在过去一年内发展了来自eBay，美团，京东，明略数据，网易等众多committer，社区每天的讨论也是非常热闹。社区提交了很多新特性和Bug修复，包括来自美团的不同HBase写入，来自京东的明细数据查询，来自网易的多Hive源等多个重大特性为Apache Kylin带来了巨大的增强。
在开源后的一年时间内，Apache Kylin也和其他社区建立了良好的合作关系，Apache Calcite作为Kylin 的SQL引擎被深入的整合进来，我们也向Calcite提交了很多改进和修复，Calcite的作者，Julian Hyde也是Kylin的mentor。HBase是Kylin的存储层，在实际运维中，我们碰到过无数问题，从可靠性到性能到其他各个方面，Kylin社区和HBase社区积极合作解决了绝大部分关键问题。另外，现在越来越多的用户考虑使用Apache Zeppelin作为前端查询和展现的工具，为此我们开发了Kylin Interperter并贡献给了Zeppelin，目前可以直接从最新版的Zeppelin代码库中看到这块。同样，我们也和其他各个社区积极合作，包括Spark，Kafka等，为构建和谐的社区氛围和形成良好合作打下了坚实的基础。
技术上，这一年来Apache Kylin主要在以下几个方面：
●Fast Cubing
在现在的版本中，Cube的计算依赖MapReduce，并且需要多个步骤的MR Job来完成计算，且MR Job的多少和维度相关，越多的维度会带来更多的MR job。而每一次MR job的启停都需要等待集群调度，并且MR job之间的数据需要多次在HDFS落地和传输，从而导致消耗了大量的集群资源。为此我们引入了一种新的算法：Fast Cubing。一个MapReduce即可完成Cub的计算，测试结果表明整个Cubing的时间可以降低30～50%左右，网络传输可以下降5倍，这在超大规模数据集的计算上带来了客观的性能改进。
●Streaming OLAP
Kylin作为一个预计算系统，不可避免的有着数据刷新延迟的限制，这在大部分用户案例中并不是问题，但随着业务和技术的发展，Streaming甚至Realtime的需求越来越高。2015年Kylin的主要发展都在Streaming OLAP上，为了支持低延迟的数据刷新，从整体的架构和设计上都做了相当大的重新设计，目前已经可以支持从Kafka读取数据并进行聚合计算的能力，同时提供SQL接口为前端客户端提供标准的访问接口，数据延迟已经可以做到分钟级别。
●Spark Cubing
Spark作为MapReduce的一种替代方案一直在社区中被问及Kylin是否可以支持直接使用Spark来作为计算。为此我们在2015年下半年实现了同样算法的Spark Cubing引擎，目前还在测试中。
●可插拔架构
为了更广泛的可扩展性，并支持如上各种新特性，Kylin在2.x的代码中引入了可插拔架构和设计，从而解决了对特定技术的依赖问题。在新的设计中，数据源可以从Hive，SparkSQL等各种SQL on Hadoop技术读取，并支持K在计算引擎方面，除了MapReduce方面的Fast Cubing外，实现了Spark Cubing，Streaming Cubing等多种计算框架，并为将来其他计算框架留下了扩展接口;在存储上，HBase目前依然是唯一的存储层，但在上层设计中已经很好的进行了抽象，很容易可以扩展到其他Key-Value系统。
2，大数据与机器学习
机器学习是数据分析不可缺少的一部分。机器学习被赞誉为大数据分析和商务智能发展的未来，成功的机器学习项目依赖于很多因素，包括选择正确的主题，运行环境，合理的机器学习模型，最重要的是现有的数据，大数据为机器学习提供了很好的用武之地。
机器学习正很快从一个被很少人关注的技术主题转变为被很多人使用的管理工具。优秀的算法，大数据和高性能的计算资源的条件的满足使得机器学习快速发展，机器学习在今年第一次进入Gartner技术成熟曲线的报告中，已直接越过了期望鹏展期的高峰，进入大数据一样的应用期;而机器学习也是报告中第一个出现的技术。2015年是机器学习丰收年，发生了很多令人瞩目的大事。
各大巨头开源：
●2015年1月，Facebook开源前沿深度学习工具&Torch&。
●2015年4月，亚马逊启动其机器学习平台Amazon Machine Learning，这是一项全面的托管服务，让开发者能够轻松使用历史数据开发并部署预测模型。
●2015年11月，谷歌开源其机器学习平台TensorFlow。
●同一月，IBM开源SystemML并成为Apache官方孵化项目。
●同时，微软亚洲研究院将分布式机器学习工具DMTK通过Github开源。DMTK由一个服务于分布式机器学习的框架和一组分布式机器学习算法组成，可将机器学习算法应用到大数据中。
●2015年12月，Facebook开源针对神经网络研究的服务器&Big Sur&，配有高性能图形处理单元(GPUs)，转为深度学习方向设计的芯片。
大公司不仅是用开源社区来增强自己的机器学习工具，而且也会以收购来提升自身的机器学习实力。如IBM于今年3月收购了AIchemyAPI，AIchemyAPI能够利用深度学习人工智能，搜集企业、网站发型的图片和文字等来进行文本识别和数据分析。
此外，2015年不仅仅是关于大公司的，利用机器学习的各种创业公司也占了同等地位。比如EverString完成B轮融资，该公司利用企业内部销售数据，和不断主动挖掘分析全球新闻数据，社交媒体等外部数据，通过机器学习自动建立量化客户模型，为企业预测潜在客户。
3，数据科学家的崛起
大数据需要数据分析，数据分析需要人才。数据科学是早就存在的词汇，而数据科学家却是近年来突然出现的新词。在Google、Amazon、Quora、Facebook等大公司的背后，都有一批数据科学专业人才，将大量数据变为可开发有价值的金矿。在大数据时代，数据科学家等分析人才的需求在激增。
据相关报告，国内大数据人才缺口目前已达百万，一名高级数据挖掘工程师月薪高达30K-50K。招聘网站上的每天都会产生大量的大数据相关职位需求。据拉勾网提供的统计来看，从2014年到2015年，IT行业关于大数据的岗位需求增长了2.4倍。人才培养迫在眉睫。复旦大学于今年成立了全国首个大数据学院。阿里云于年底宣布新增30所合作高校，开设云计算大数据专业,计划用3年时间培养5万名数据科学家。各知名大学也将数据科学设为硕士课程。
无论是国内还是国外，数据科学都是目前炙手可热的研究领域，数据科学家、数据分析师都是非常火爆的职位，几乎所有的产业都需要数据科学家来从大量的数据中挖掘有价值的信息。大数据分析领域的专属首席级别头衔也愈发多见。美国政府今年任命了DJ Patil作为政府的首席数据科学家(Chief Data Scientist)，这也是美国政府内部首次设立&数据科学家&这个职位。
【展望2016】
●Hadoop。对于 HDFS，会朝着异构存储介质方向发展，尤其是对新兴存储介质的支持;对于 YARN，会朝着通用资源管理和调度方向发展，而不仅仅限于大数据处理领域，在加强对 MapReduce、Spark等短类型应用支持的同时，加强对类似Web Service 等长服务的支持;
●对于Hbase，将会花费更多精力在稳定性和性能方面，正尝试的技术方向包括：对于 HDFS 多存储介质的使用;减少对 ZooKeeper 的使用以及通过使用堆外内存缓解Java GC的影响。
●Spark 2.0预计明年三四月份发布，将会确立以DataFrame和Dataset为核心的体系架构。同时在各方面的性能上会有很大的提升。
●Apache Kylin 2.0即将发布，随着各项改进的不断完善，该版本将在2016年在OLAP on Hadoop上更进一步!
●ElasticSearch开源搜索平台，机器学习，Data graphics，数据可视化在2016年会更加火热。
●大数据会越来越大，IOT、社交媒体依然是一个主要的推动因素。
●大数据的安全和隐私会持续受到关注。
关注官方微信
扫一扫分享本文到朋友圈
联系我们：
&(发送邮件时，请把#换成@)
投稿信箱：
&(发送邮件时，请把#换成@)
企业网版权所有}

51无线网