大数据分析怎么做最好的数学分析教材?

什么是大数据,大数据为什么重要,如何应用大数据?
什么是大数据,大数据为什么重要,如何应用大数据?
驾驭大数据 驾驭未来
文/林海龙 虎嗅网友
大数据的流行,也引发了图书业大数据出版题材的升温。去年出版的《》(涂子沛著)是从数据治国的角度,深入浅出的叙述了美国政府的管理之道,细密入微的阐释了黄仁宇先生”资本主义数目式管理“的精髓。最近人民邮电出版社又组织翻译出版了美国Bill Franks的《驾驭大数据》一书。
该书的整体思路,简单来说,就是叙述了一个”数据收集-知识形成-智慧行动“的过程,不仅回答了”what“,也指明了”how“,提供了具体的技术、流程、方法,甚至团队建设,文化创新。作者首先在第一章分析了大数据的兴起,介绍了大数据的概念、内容,价值,并分析了大数据的来源,也探讨了在汽车保险、电力、零售行业的应用场景;在第二章介绍了驾驭大数据的技术、流程、方法,第三部分则介绍了驾驭大数据的能力框架,包括了如何进行优质分析,如何成为优秀的分析师,如何打造高绩效团队,最后则提出了企业创新文化的重要意义。整本书高屋建瓴、内容恣意汪洋、酣畅淋漓,结构上百川归海,一气呵成,总的来说,体系完备、内容繁丰、见识独具、实用性强,非常值得推荐,是不可多得的好书!
大数据重要以及不重要的一面
与大多数人的想当然的看法不同,作者认为“大数据”中的”大”和“数据”都不重要,重要的是数据能带来的价值以及如何驾驭这些大数据,甚至与传统的结构化数据和教科书上的认知不同,“大数据可能是凌乱而丑陋的”并且大数据也会带来“被大数据压得不看重负,从而停止不前”和大数据处理“成本增长速度会让企业措手不及”的风险,所以,作者才认为驾驭大数据,做到游刃有余、从容自若、实现“被管理的创新”最为重要。在处理数据时,作者指出“很多大数据其实并不重要”,企业要做好大数据工作,关键是能做到如何沙里淘金,并与各种数据进行结合或混搭,进而发现其中的价值。这也是作者一再强调的“新数据每一次都会胜过新的工具和方法”的原因所在。
网络数据与电子商务
对顾客行为的挖掘早已不是什么热门概念,然而作者认为从更深层次的角度看,下一步客户意图和决策过程的分析才是具有价值的金矿,即“关于购买商品的想法以及影响他们购买决策的关键因素是什么”。针对电子商务这一顾客行为的数据挖掘,作者不是泛泛而谈,而是独具慧眼的从购买路径、偏好、行为、反馈、流失模型、响应模型、顾客分类、评估广告效果等方面提供了非常有吸引力的建议。我认为,《驾驭大数据》的作者提出的网络数据作为大数据的“原始数据”其实也蕴含着另外一重意蕴,即只有电子商务才具备与顾客进行深入的互动,也才具有了收集这些数据的条件,从这点看,直接面向终端的企业如果不电子商务化,谈论大数据不是一件很可笑的事?当然这种用户购买路径的行为分析,也不是新鲜的事,在昂德希尔《顾客为什么购买:新时代的零售业圣经》一书中披露了商场雇佣大量顾问,暗中尾随顾客,用摄影机或充满密语的卡片,完整真实的记录顾客从进入到离开商场的每一个动作,并进行深入的总结和分析,进而改进货物的陈列位置、广告的用词和放置场所等,都与电子商务时代的客户行为挖掘具有异曲同工之妙,当然电子商务时代,数据分析的成本更加低廉,也更加容易获取那些非直接观察可以收集的数据(如信用记录)。
一些有价值的应用场景
大数据的价值需要借助于一些具体的应用模式和场景才能得到集中体现,电子商务是一个案例,同时,作者也提到了车载信息“最初作为一种工具出现的,它可以帮助车主和公司获得更好的、更有效的车辆保险”,然而它所能够提供的时速、路段、开始和结束时间等信息,对改善城市交通拥堵具有意料之外的价值。基于GPS技术和手机应用所提供的时间和位置的数据也会提供主动的、及时的推送客户关怀信息,有利于改善客户关系和创造商业机会,也可以利用它进行共同目的和兴趣的社交,这些都会带来一种令人惊奇的业务创新。在视频游戏、电信话费清单上,作者也提出了十分有价值的洞见。
技术、流程、方法、组织、人、文化
作者是Teradata的首席分析师,绝非是文献学专家和徒有虚名之辈,他在书中也介绍了如何利用海量并行架构(MPP),云计算、网格计算、MapReduce等时下炙手可热的技术从大数据中披沙沥金,驾驭大数据。
同时,作者一直在提醒我们,数据只是源,“思想才是分析之父”,“有价值和影响力的分析才是优质分析”,优质分析要符合G(Guided指导性)R(Relevant相关性)A(Explainable可行性)T(Timely及时向)原则,并且优质的分析要能提供答案、提供用户需要的东西,要能提供新的解决方案,对实际行动有指导意义,从这个角度看,它区别于报表那种标准和固定的数据呈现模式,借助于大数据分析,用户能够把握现状、预测趋势,这样才能驾驭未来。
作为一个大数据的行动者和实干家,作者也结合自己的工作经验,对于如何成为优秀的分析师,给出了他的答案,那就是学历、数学和编程等技能“它们仅仅是起点而已”,优秀分析专家身上更重要的才能是“承诺、创造力、商业头脑、演讲能力和沟通技巧、直觉”,这种人一将难求,它需要分析师长期的工作经验积累,从这点看,数据分析“不能只把自己当成科学家,业内最好的分析专家毫无疑问也是艺术家”。企业的大数据探索之旅,并非一片坦途,也会充满了各种艰险,这就需要企业具有创新性的文化氛围,容忍冒险和犯错,并鼓励尝试,作者也切中肯綮的提出“关注人,而不是工具”,“打破思维定势,形成连锁反应,统一行动目标”的创新之路,供读者思考和借鉴。
时异而世移,我认为,在当今社会,企业直面社会的剧烈变化,在管理工作中依赖小规模的“点子”“好主意”的传统做法已经难以应对市场的激烈竞争,企业需要从那些来自于现场、来源于客户、来源于多个时空的全方位的立体信息中找到利润的宝藏,才能获得持续增长的动力,从这个意义上看,驾驭大数据是企业驾驭未来的必经之路。
序言:大数据管理
无论你是否喜欢,大量的数据都会在不久的将来涌入你的生活。也许它现在已经出现在你的生活中了,也许你已经与它们打了一段时间交道-例如,试图解决这些数据的存储问题以便后续的访问,处理错误和缺陷,或者将这些数据进行结构化分类。或许你现在准备通过分析庞大的数据集提炼出一些有价值的数据,进而从中得到一些关于你的客户、业务或者你的企业所处商业环境的信息。或许你还没有到这一步,但是你已经意识到了数据管理的重要性。
无论你属于上述哪种情况,你都找对了地方。正如Bill Franks所说,在不久的将来,不仅会有大数据,还会有许多关于大数据的书籍。但是,我觉得这本书不同于其他的大数据书籍。首先,该书是这个领域的先驱者。最重要的是,它与其他书籍侧重的内容有所不同。
很多大数据的书籍侧重于大数据管理:如何将大数据存储到数据库或者数据仓库中,或者如何将非结构化数据进行结构化和分类。如果你发现自己阅读到了很多关于Hadoop、MapReduce或者其他关于数据仓库方法的内容,那么你可能已经遇到了,或正在寻找一本"大数据管理(BDM)"的书籍。
当然,大数据管理是一项重要的工作。无论你有多少何种质量的数据,如果你不能将它们按照某种便于访问和分析的格式存储到一个环境中,那么你就无法体现出这些数据的价值。
但仅仅是大数据管理方面的知识还不能让你走得更远。为了让这些任意大小的数据变得有价值,你不得不自己分析和操作这些大数据。正如传统的数据库管理工具不能自动分析来自传统系统的交易数据一样,Hadoop和MapReduce也不能自动解释来自网站、基因图谱、图像分析或者其他大数据源的数据的含义。即使在大数据时代到来之前,许多从事数据管理多年(甚至是几十年)的组织也没能从它们的数据中获取到便于分析和决策的有价值信息。
在我看来,这本书将重点放对了地方。它主要是关于大数据的有效分析,而不是大数据管理本身。它从数据开始,所有的内容均围绕如何做整体决策,如何构建卓越的数据分析中心,以及如何构建数据分析文化等主题。你也会发现一些大数据管理中提到的内容,但该书内容的主体仍是关于如何利用输入数据生成、组织、配置和执行数据分析。
或许你还没有意识到,分析在今天的商业领域中是一个很热门的话题。这本书将主要围绕公司如何利用分析进行竞争,我在该领域的著作和论文一直是我所有著作中最热门的内容。关于分析的会议也在各地不断涌现。大的咨询公司,例如,Accenture、Deloitte和IBM已经在该领域积累了大量经验。许多公司、公共服务部门甚至非营利机构都已经将分析作为一个优先的战略。现在人们对大数据非常感兴趣,但是重点仍应该放在如何组织这些数据并使得它们便于分析,进而影响决策和行动。
Bill Franks独创地将讨论重点放在大数据和分析的交集上。与其他数据仓库和数据应用供应商相比,他所在的公司Teradata,在数据分析及从中提取商业价值的领域,一直都表现出了最高的专注程度。尽管Teradata最被人们熟知的是其企业数据仓库工具,但是这些年来,它也提供了一系列的分析应用工具。
在过去的一些年中,Teradata为了开发面向大数据的高度可扩展的分析工具,已经和领先的数据分析软件供应商SAS建立了紧密的联系。这些工具通常是数据仓库环境的嵌入式分析工具,并针对大量数据分析应用,例如,实时欺诈检测和大规模客户购买倾向评分。Bill Franks 是Teradata的首席分析专家,因此有机会了解大规模分析和库内处理的理念和专业知识。如果讨论这个主题,可能没有比Bill Franks更好的人选了。
那么,本书还提供了哪些特别有趣且重要的内容呢?以下是关于本书重点的简要介绍。
第1章概述了大数据的相关概念,还解释了"数据的大小并不总是最重要的"这个观点。事实上,在整本书中,Franks指出了许多大数据其实并没有用,如何过滤掉无效的数据才是真正重要的。
第3章是对大数据源的综述,将大数据源进行了创造性和有价值的分类,且非常全面。该书第2章介绍了网络数据及其分析,对希望了解在线用户行为的企业和个人会很有帮助。这部分内容绝不仅仅是一般的面向网页分析的报表。
第4章致力于介绍分析可扩展性的演进,这部分内容为您提供了一个大数据和分析技术平台的全新视角。可以肯定的是,你在其他地方都未曾看到过这部分的内容。该章也讲述了最新的技术,例如,MapReduce,并讨论了大部分大数据分析工作都需要一个混合的环境。
该书包含了一部分关于如何生成和管理分析数据环境的最新内容,这也是在其他地方看不到的内容。如果你想要了解最新的关于"分析沙箱"和"企业分析数据集"内容(这对我来讲也是全新的内容,但是现在我知道了它们是什么以及它们的重要性),那么你可以在第5章中找到答案。本章还包含了一些关于对管理系统和处理流程进行建模和评分的重要信息。
第6章讨论了目前常用分析软件工具的类型,包含开源包R。虽然很难找到关于这些不同分析环境优缺点的评价,但是本章中你将读到这些分析。最后,本章讨论了一些组合和简易分析的方法,以便于像我这样的非技术人员理解。
该书的第三部分从技术角度给出了在分析中和企业管理方面的建议。同时,选取的角度也是很合理的。例如,我特别喜欢第7章中关于制定决策和发现问题的部分。许多分析专家进行分析时都没有考虑一个更大的问题-这些问题是如何产生的。
近来有人问我,关于分析文化内容的描述是否超出了本书的范畴。我回答说,在我读Franks所写的第四部分之前,我并不知道这个问题的答案。他将分析文化和创新文化联系在了一起,这一点我非常喜欢,并且以前从未见到过此类内容。
尽管这本书并没有避开技术话题,但它以一种直接和解释性的方式对它们进行了描述。这使得本书适合更广泛的读者,包括那些技术背景有限的读者。Franks使用数据可视化工具的论述借以概括整本书的基调和视角:"简单即是最好的。仅当必要时,再把它变得复杂。"
如果您的企业打算进行分析工作-毫无疑问你将需要解决很多在这本书中所涉及的问题。即使你不是一个技术人员,你也需要熟悉一些关于构建企业分析能力所涉及的内容。如果你是一个技术人员,你将学习到分析中人性化的一面。如果你正在书店或者通过"搜索本书内容"浏览本书的前言部分,那么买下这本书吧。如果你已经买了这本书,那就赶快行动起来,阅读它吧!
Thomas H. Davenport
信息、技术与管理领域杰出教授,美国巴布森学院
联合创始人、研发总监,国际数据分析研究所
发表评论:
TA的最新馆藏[转]&[转]&[转]&[转]&[转]&[转]&大数据处理分析的六大最好工具
发表于 17:21|
作者中国大数据
摘要:来自传感器、购买交易记录、网络日志等的大量数据,通常是万亿或EB的大小,如此庞大的数据,寻找一个合适处理工具非常必要,今天我们为大家分享在大数据处理分析过程中六大最好用的工具。
【编者按】我们的数据来自各个方面,在面对庞大而复杂的大数据,选择一个合适的处理工具显得很有必要,工欲善其事,必须利其器,一个好的工具不仅可以使我们的工作事半功倍,也可以让我们在竞争日益激烈的云计算时代,挖掘大数据价值,及时调整战略方向。本文转载自中国大数据网。
CSDN推荐:欢迎免费订阅《》获取更多Hadoop技术文献、大数据技术分析、企业实战经验,生态圈发展趋势。
以下为原文:
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器、气候信息、公开的信息、如杂志、报纸、文章。大数据产生的其他例子包括购买交易记录、网络日志、病历、事监控、视频和图像档案、及大型电子商务。大数据分析是在研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop
是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
Hadoop带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如
HPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与
通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国
实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆
比特网络技术,扩展研究和教育机构及网络连接能力。
该项目主要由五部分组成:
高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;
先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;
国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发;
基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期 的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营,和来提供必需的基础架构来支
持这些调查和研究活动;
信息基础结构技术和应用(IITA ),目的在于保证美国在先进信息技术开发方面的领先地位。
Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、
Admaster等等。
Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading的缩写,即数据抽取、转换和加载)等等。Storm的处理速度惊人:经测
试,每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错,很容易设置和操作。
Apache Drill
为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache
Drill 实现了 Google's Dremel.
据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍,“Drill”已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。
该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。
“Drill”项目其实也是从谷歌的Dremel项目中获得灵感:该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android
Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。
通过开发“Drill”Apache开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。
RapidMiner
RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
功能和特点:
免费提供数据挖掘技术和库
100%用Java代码(可运行在操作系统)
数据挖掘过程简单,强大和直观
内部XML保证了标准化的格式来表示交换数据挖掘过程
可以用简单脚本语言自动进行大规模进程
多层次的数据视图,确保有效和透明的数据
图形用户界面的互动原型
命令行(批处理模式)自动大规模应用
Java API(应用编程接口)
简单的插件和推广机制
强大的可视化引擎,许多尖端的高维数据的可视化建模
400多个数据挖掘运营商支持
耶鲁大学已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘。
&Pentaho BI
Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。
Pentaho BI 平台,Pentaho Open BI 套件的核心架构和基础,是以流程为中心的,因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI
平台上执行的商业智能流程。流程可以很容易的被定制,也可以添加新的流程。BI 平台包含组件和报表,用以分析这些流程的性能。目前,Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过
J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。 Pentaho的发行,主要以Pentaho
SDK的形式进行。
Pentaho SDK共包含五个部分:Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的
Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分,囊括了Pentaho平台源代码的主体;Pentaho数据库为
Pentaho平台的正常运行提供的数据服务,包括配置信息、Solution相关的信息等等,对于Pentaho平台来说它不是必须的,通过配置是可以用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例,它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行;Pentaho解决方案示例是一个Eclipse工程,用来演示如何为Pentaho平台开发相关的商业智能解决方案。
Pentaho BI 平台构建于服务器,引擎和组件的基础之上。这些提供了系统的J2EE 服务器,安全,portal,工作流,规则引擎,图表,协作,内容管理,数据集成,分析和建模功能。这些组件的大部分是基于标准的,可使用其他产品替换之。
原文链接:
&(责编/魏伟)
以“&”为主题的&将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。票价折扣还剩最后5天,过后将恢复原价,需要购买的朋友,请抓住这最后的机会,点击
推荐阅读相关主题:
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
相关热门文章想从事大数据、海量数据处理相关的工作,如何自学打基础?
想做数据处理尤其是大数据量处理的相关工作必须兼具计算机科学基础和统计基础。现在有一个高大上的职业叫数据科学家,有人说数据科学家就是一个比程序员更懂统计的统计学家,一个比统计学家更会编程的程序员。觉得说得很形象。考虑到你还是在读本科生,有很多知识和课程还需要作为基础来学习和巩固。基础中的基础:线性代数,概率论核心知识:数理统计预测模型机器学习计算机:数学软件:强大矩阵运算和优化功能的matlab,专而精的mathematica。语言:python(很流行的科学语言,潜力也很大,ipython这样交互式环境十分有利),fortran(强大的计算语言,充分优化的现成代码),R(相比于matlab,java,c,R是个高富帅)可视化这是数据分析各类语言使用度的图表,R占的比例还是相当高啊。想利用现在动辄TB级的数据大显身手,光靠excel可不够啊。你真的需要写很多代码…这是数据分析各类语言使用度的图表,R占的比例还是相当高啊。想利用现在动辄TB级的数据大显身手,光靠excel可不够啊。你真的需要写很多代码…统计:时间序列分析
应用回归(很简单,亦很实用)
多元统计分析强烈推荐:
和哈佛的学生一起学习Data Science。课后问题的材料:网络课程同样有丰富的资源:机器学习类:数据分析类:编程类:相关问题:水平有限,欢迎补充。另外我制作了一个个人网站 和专栏
希望激发更多人对data science 的兴趣。
海量数据分成两块,一是系统建设技术,二,海量数据应用。先说系统建设,现在主流的技术是HADOOP,主要基于mapreduce的分布式框架。目前可以先学习这个。但是我的观点,在分布式系统出来之前,主要是集中式架构,如DB2,oracle。为什么现在用分布式架构,那是因为现在集中式架构受限于IO性能,出来速度慢,如果又一种硬件技术,可以很快地处理海量数据,性能上能满足需求,那么集中式架构优于分布式架构,因为集中式架构稳定,运维压力小。现在的集中式架构要么性能达不到要求,要么就是过于昂贵。我期待一种技术出现,可以非常快地传输和处理数据,那么集中式架构将再次进入人们眼球。再说海量数据应用。海量数据应用主要是数据挖掘和机器算法。具体有不同的应用场景,如个性化搜索和推荐,社交网络发现,精准营销,精准广告,实时最优路径,人工智能等等。看你想做系统支撑技术还是与业务结合的应用技术。如果现在学系统建设技术,可以读下如下书籍:如果学数据挖掘和机器算法,推荐先看数据挖掘导论,统计分析原理,Mahout,R,MATLAB
1. 自己装个小集群跑hadoop/hive,可以到cloudera网站上下现成的打包虚拟机。看看hadoop in action. 这本书比权威指南容易懂很多。2. 装个cassandra什么的玩玩,在上面架个小项目,比如留言板什么的。。3. 读一些著名的paper,nosql的或者mapreduce。4. 看看apache hadoop家族的其他几个项目,比如zookeeper,pig,了解一下生态圈到这里为止你大概有个概念,知道bigdata怎么回事了找个开源项目,看看ticket list,看看能不能自己修。。能的话看看能不能混进项目组个人觉得,大数据要靠实践多一点。在真的上百上千节点的cluster上跑hadoop和自己虚拟机架的完全不同。cluster上跑各种奇葩的事情单机都是碰不到的。。就好比dba靠读书考证很难牛屄一样。所以最终还是要找个公司实战。。不过如果上面几个都做到的花,基本上应聘大数据公司问题不大了。----------------------------------做大数据平台工作现在满一周年多几天,再看上面的答案觉得说得不是很到位。在国内的环境下,似乎还是Hadoop用得更多,其他更fancy的东西比如presto/spark什么的,湾区也算是新鲜事物,并不是很多公司都在用(也有原因是真的适用的公司也不算太多了)。更实际节省的做法是,学Hadoop,至少要了解系统架构和数据的流向,比如怎么partition,怎么shuffle,combiner怎么work之类的大概念,对入门人士面试官大多也就是面这些,不会问太深,再深入的问题,是留给有行业经验的人的。对刚入门想入行的人,知道上面这些,再写写类似Word Count(大数据版的helloworld),之类的有个实际概念,就可以找公司面着玩看了。其他东西可以都了解个皮毛,跟上社群的演进。大数据更多是工程的东西,不是那么学术,多看看比深挖一个对初学者更有好处。每个工具被发明,都是解决一个特定问题的,大数据没有一个产品是万能的,都是解决某个特定问题来的,看到新鲜事物就想想为什么需要这样的工具,背后有什么需求。比如有了Hive为什么facebook还要搞Presto;为什么Hadoop 2.0要做Yarn。看的时候多想想这个,视野就会更开阔。建议如果想深入学习,没有什么比找个真的做相关行业的公司来的靠谱了。工程的东西,尤其是这样新鲜出炉的工程领域,光看书看资料是没有任何用处的,你很难了解每个技术背后的关键,也很难了解实践中会遇到的问题。我之前打杂过的实验室,到处找客户免费用他们的产品,每个出去的学生都会义务跟雇主推荐实验室的产品,为什么,因为没有真的在PB级别的数据上跑,你就不知道哪里设计有问题。你深入看一个项目,就会发现,其实用得技术没什么新鲜深奥的,比如你看Hive或者Presto,会发现用到的技术,在Query引擎领域只能算是入门级的知识,传统数据库厂商都用了几十年了。真正好玩的是,每个Feature设计是如何切入大数据这个背景的。所以说,没有比找一家公司真的干一段时间更能让你了解大数据的了。当然请别被忽悠去拿大数据做噱头的公司了。现在有些公司招聘,就算不用hadoop也会往上写,反正去了老板会说,现在数据不够,以后肯定会需要Hadoop的。以上都是关于平台方向的,数据方向的我完全不懂。
我觉得首先是看看Google的几篇论文吧,包括GFS、MapReduce、BigTable和chubby等,建立一个理论的基础。然后就是系统学习并使用下hadoop这个系统,最好能深入代码,理解思想!同样的可以关注一些目前热门的Nosql的开源项目,比如Mongodb和Redis,好好学习下别人的思想和代码!关注一些相关方向的会议的论文,关注一些业界的博客,比如淘宝核心系统博客 和NoSqlFan 不过感觉这方面的能力是实践出来的,找机会进公司实习或做相关项目,肯定会收获很大!
可以考虑学一些基本的理论知识。比如 Stanford 开的那个网上的 machine learning 的公开课,结合一些好的入门教材,对基本概念有所了解。R. O. Duda, P. E. Hart, and D. G. Stork. Pattern classification. Wiley, New York, 2nd ed edition, 2001. T. Hastie, R. Tibshirani, and J. H. Friedman. The elements of statistical learning: data mining, inference, and prediction. Springer series in statistics. Springer, New York, NY, 2nd ed edition, 2009.实际应用技术,编程这样的,还是要找公司,有实践才行。如果找不好合适公司,就打好基础吧。
没办法,只能找个相关工作先搞
看Netflix prize各个队的实验报告,比如:
看你要跟到哪个程度,更具体的那个方向:第一层:搞Google那个套路的,云计算方向的,hadoop那些搞搞,就可以去一些公司忽悠工作了。第二层:搞一些社交网络,多媒体等海量数据的存储分析处理,侧重数据挖掘,以后可能能够在这个领域做点名堂。第三层:在上面两层的数据的基础上,做PB级别“以上”规模,侧重“实时”海量数据分析,能够对在线业务做海量数据支撑的。 可能搞出商业和专业(技术)方面的重量级的。
我个人在这个行业混,是看到了需求,但个方面,还没有现成的:思想,方法,系统。 以后类似有Google M/R之类的,包含方法和系统甚至开发运维环境的东西出现。
从我个人的理解看:思想要变,并行计算的一些思想要引入比如Pipeline+Partitioning+M/R;算法要变:侧重常数事件复杂度的或者logn以下的;做业务的思想要变:比如实时要一个一定范围最优的解比一个一天后给一个全局范围的解跟重要等等等等等等等等等等。
我也在做这方面的,大家交流哦。
多看些大数据技术方面入门的书籍,推荐几本Python:《利用Python进行数据分析》、《Python基础教程》、《Python Cookbook》、《“笨办法”学Python》MATLAB:《精通MATLAB》、《MATLAB R2014a从入门到精通》、《MATLAB R2014a完全自学一本通》、《MATLAB宝典》数据库:《MongoDB权威指南》、《数据库系统概念》、《SQL语言与数据库操作技术大全》、《Oracle从入门到精通》R语言:《统计建模与R软件》、《R语言实战》、《ggplot2数据分析与图形艺术》、《数据挖掘与R语言》机器学习:《数据挖掘实用机器学习工具与技术》、《数据挖掘导论》、《机器学习》、,《数据挖掘与机器学习WAKA应用技术与实践》
好吧,我来说一下我的看法吧首先我由各种编程语言的背景——matlab,R,java,C/C++,python,网络编程等我又一定的数学基础——高数,线代,概率论,统计学等我又一定的算法基础——经典算法,神经网络,部分预测算法,群智能算法等但这些目前来讲都不那么重要,但慢慢要用到Step 1:大数据理论,方法和技术大数据理论——啥都不说,人家问你什么是大数据时,你能够讲到别人知道什么是大数据大数据方法——然后别人问你,那怎么实现呢?嗯,继续讲:说的是方法(就好像归并排序算法:分,并)。到目前外行人理解无障碍大数据技术——多嘴的人继续问:用的技术。这阶段只是基础,不涉及任何技术细节,慢慢看慢慢总结,积累对“大数据”这个词的理解。Step 2:大数据思维Bang~这是继Step 1量变发展而来的质变:学了那么久“大数据”,把你扔到制造业,你怎么办?我想,这就是“学泛”的作用吧,并不是学到什么具体东西,而是学到了对待事物的思维。就像知友讨论的:中有提到这个我也朦朦的不懂 @.@----------------------------------------------------------------------以下阶段我还没开始=_=,不好误导大家Step 3:大数据技术基础Step 4:大数据技术进阶Step 5:打实战Step 6:大融合我现在也在学习之中~~这只是我自己为自己打算的学习历程,欢迎给出各种建议~~本来想回答你在评论里的提问,但是被提示不超过1000字...只能这里回答了。。。(跟问题本身也有些相关)对
评论提问的回答: 我现在回看了一下我原来答案,太糟糕了,虽然路线还可以,但好像也没答到问题的点子上(因为我的点子是:打基础就得了解概念先,后面才是联系自己现状调想学的东西,但看赞同最多好像是:这个领域什么技术比较热?有哪些资源?)...承蒙你的肯定,就回答一下你的问题吧~我觉得重要的还是:1. 积累对(工业)大数据的理解:定义和案例;2. 不断改进自己的思维:要哪些能力?如何培养。下面说说我的理解吧1. 积累对(工业)大数据的理解:定义和案例大数据到目前为止也没有统一的定义,但倒是有些观点可借鉴一番:(1)
Gartner的3V定义:Volume,数据量大;Velocity,数据更新速度快;Variety,数据多样性。(2)
维基百科/谷歌(我记得好像是...)的定义:Big Data is a broad term for data sets so large or complex that traditional data processing applications are inadequate.(即 大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。)这两个定义,一个从“大数据”的属性层面入手,一个从“大数据”的方法层面入手,以理解、定义大数据。网上有各种各样的定义,这是我觉得比较好的两个。然而,一两句化的定义是解决不了“对大数据的理解”这个问题的,更多的是需要通过对大数据案例学习、对网上别人观点和看法的吸收 以及 自己的实践等渠道,来慢慢加深对大数据的理解,最终才能明白这些定义的隐含内涵。那我对这些定义的隐含内涵的理解是什么呢?(1)
我觉得大数据的3V定义中,核心在于“Variety”(多样性)上。其实,我想表达的是:多数据源,或者说,解决问题的多个视角。对问题的理解使得我们可以通过多个视角去考虑问题,而不同的视角代表了不同的数据源,通过综合这些数据源,我们可以得到更准确、更精确的分析结果。而Volume(量)和Velocity(数据更新速度)只是Variety(多样性)附带的“红利”而已:考虑的视角多了,数据量自然也大了,把动态的视角考虑进去,那么自然也就考虑了数据更新了。(例如,在考虑机器故障预测这件事上,我们不仅可以利用它加工出来的零件的尺寸这个数据,也可以考虑机器本身的振动信号、电压电流信号,甚至加工过程中产生的噪声信号等等,那么我们从机器、零件、环境等多个视角考虑问题,考虑多个数据源,从而实现了一个大数据应用。)数据采集受硬件约束,而硬件越来越便宜。多视角考虑问题则受人的思维约束,同时也是更好解决问题的主要瓶颈。所以,对问题的理解和思考,应该成为我们的优势所在。(2)
而维基百科关于大数据的定义,告诉我们算法、数据分析的困难和重要性将更上一层。而由于实现部分,不用制造考虑,交给IT部吧。也就是说,一个定义分别告诉我们:多视角;另一个:能做不可能的事情,虽然很难。综上,我认为,(制造中)大数据应该是一种基于多视角分析问题,并利用高扩展性、实时性的算法分析问题的一种科学范式。这样还是很泛,真的制造大数据是很狭隘的(就目前而言)。而无论是工业4.0,还是工业大数据或智能制造,从本质上看就是IT技术(信息)与工业技术(物理)的融合,而制造的人将是这场融合中重要的催化剂:最贴近工业技术,同时又能几时吸收一些前沿IT技术的思想,将两者融合以优化制造流程!(你可以看看GE的那个白皮书)所以,其实对制造的大数据,我还有一点想法:切勿切勿切勿一心落到“大数据”中“大”的追求当中!McKinsey的报告中强调,并不是说一定要超过特定TB 级的数据集才能算是大数据。(Big Data: The Next Frontier For Innovation, Competition, And Productivity)而其实对于大数据上“量”阈值的界定,是取决于不同行业的,因此用一个单纯的阈值来判断是否是大数据是不实际的。在制造步入数据化时代之际,更重要的是改变思维:以往无数据状况下,只能依靠纯粹机理的因果分析;而今获取数据的渠道多样且容易,应该多考虑如何利用数据以辅助优化、决策,而不单单利用机理分析!最后,数据分析更贴近实际,而大数据分析可能是屠龙之技,是需要积累的(看看人家互联网都积累那么久,现在都还没多少很成功出名的大数据case)!2. 不断改进自己的思维:要哪些能力?如何培养。上面说了,制造的人是Cyber Physics System中 cyber 和 physics融合的leader,那么作为leader得做什么呢?(1) 启动智能制造模式;(2) 明确所需能力,并培养及获取。领导做事并共同进步。启动智能制造模式GE在提出工业互联网时涉及了三个点:传感器、全新的互联网连接(平台)和数据分析与技术,这三个点结合实现了智能设备、智能系统和智能决策,从而支撑起工业互联网的框架。智能设备
为工业设备提供数字化设备是工业互联网革命的第一步。而智能设备为这一步的实现提供了强大的基础:硬件成本的大幅下滑及物联网技术的实现、成熟,使实时、全方位监控设备、获取设备数据成为可能,而微处理器芯片和大数据分析工具及分析技术的持续进步,支撑了海量数据的处理。
这让更广泛的利益相关者能够参与到资产维护、管理和优化之中。它还确保在合适的时间引入本地和远程拥有相关机器专业知识的人。智能信息还可以返回至最初的机器。这不仅包括该机器产生的数据,还包括可以加强机器、设施和大型系统的运营或维护的外部数据。这些数据反馈循环让机器能够从历史中“学习”,从而控制系统更智能的运行。智能系统
智能系统不单单将智能设备、数据及人结合为一个整体,使智能信息在机器、系统网络、个人或群体之间分享,推动智能协作和更好的决策,还负责网络优化、维护优化、系统恢复、学习等智能功能。智能决策
工业互联网的全部威力将通过第三个元素实现——智能决策。当从智能设备和系统收集到足够的信息以促进数据驱动的学习时,智能决策就出现了,这反过来让机器子集和系统网络级运营功能从操作员转到安全的数字系统。明确所需能力,并培养及获取(1)
精心制定的大数据规划:大数据及高级数据分析看起来漂亮,但就像战略规划一样,需要无论是对制造等业务流程,还是对数据理解,都具有全局观念和深刻认识的人才、管理者(像Microsoft这样的公司都需要请mu sigma这样的数据处理公司做咨询)。无论何时,在推进工业大数据的过程中,一定要有人总结关于公司的数据概况及其应用案例。(2)
时刻关注三个关键能力的成长:A.
鉴别、结合及管理多种数据源:对自己部门相关的总体数据有深刻理解,对其他部门数据有一个数据概况的认识,并思考如何结合及管理。B.
构建高级分析模型的能力。C.
为了确保数据和模型能够真正生成更好的决策,管理层必须具备推动转变体制的能力:如赋权相关人员,组织扁平化,数据共享会等习惯。(3)
自动化带来的效益是明显的,信息化建设则是长期的;可能需要新的管理架构、角色或分工在其中进行协调:信息化建设是长期且需要不断投入的,大方向对了,还需要高执行力的领导层及独立部门人员进行推行。
已有帐号?
无法登录?
社交帐号登录}

我要回帖

更多关于 最好的足彩分析网站 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信