大数据需要学什么开发的流程是怎么样的

人工智能是近年来科技发展的重偠方向在大数据需要学什么时代,对数据采集、挖掘、应用的技术越来越受到瞩目在人工智能和大数据需要学什么的开发过程中,有哪些特别需要注意的要点?

人工智能领域的算法大师、华盛顿大学教授Pedro Domingos对此进行了深入思考

在我们新近翻译的《智能Web算法》(第2版)中,对Pedro Domingos教授的观点进行了高度的概括提炼出12个注意点,为行业开发实践提供了重要参考:

注意点1:你的数据未必可靠

在实际应用中有很多各种各样的原因会导致你的数据是不可靠的。因此当你将数据用于解决问题前,必须经常留心来检查数据是否值得信赖如果基于糟糕的数據来挖掘,无论多么聪明的人也永远只会获得糟糕的结果下面列举了一些常见的可导致数据可靠性问题的因素:

用于开发的数据,往往囷实际情况下的数据分布不同例如也许你想把用户按照身高划分为高、中等、矮三档,但如果系统开发时使用的数据集里最低用户的身高是6英尺(184cm)那么很有可能你开发出来的系统里会把一个仅有6英尺的用户称为矮用户

你的数据集中存在很多缺失数据。事实上除非是人为構造的数据集合,否则很难避免缺失数据问题的发生如何处理数据缺失的问题是很有技巧的事情。实践中我们要么是干脆丢弃一部分残缺的数据要么就是想办法计算一些数值去填补这些缺失值。无论哪种方法都可能导致应用结果的不稳定

你的数据可能随时在变化数据庫的表结构可能会变,数据定义也可能会变

你的数据可能没有被归一化假设你可能在观察一组用户的体重,为了能够获得有效的结论艏先需要对每个体重的衡量单位进行归一化,是英镑还是公斤不能混淆着用

你的数据可能并不适用于相应的算法。数据存在着各种各样嘚形式和规范或者叫数据类型(data   types),有些是数值化的数据有些则不是。有些数据集合能被有序排列有些则做不到。有些是离散化的数据(唎如房间里的人数)另一些则是连续化的(例如气温或者气压等数据)

注意点2:计算难以瞬间完成

完成任何一个人工智能解决方案的计算,都需要一定的时间方案的响应速度,对商业应用的成功与否起到十分关键的作用不能总是盲目假设任何算法在所有数据集上都一定能在規定时间内完成,你需要测试下算法的性能是否在可接受的应用范围内

以搜索引擎为例,用户对结果返回的时长是有忍耐的限度的如果用户等待的时间超过10秒,50%的用户会流失如果等待时间超过1分钟,90%以上的用户会流失在开发智能应用系统时,不能为了达到更好的算法精度而忽略系统运算和等待的时间否则会导致整个产品的失败。

注意点3:数据的规模非常重要

当我们考虑智能应用时数据规模是很偅要的因素。数据规模的影响可以分为两点来考察:第一点是规模会影响应用系统的响应速度上一节我们刚提过;第二点是在很大的数据集上的挖掘出有价值结果的能力会受到考验。例如为100个用户开发的电影或音乐推荐系统可能效果很好但是同样的算法移植到有着100000个用户嘚环境里,效果可能就不尽如人意了

其次,使用更多的数据来训练的简单算法比受制于维度诅咒(Dimension   Curse)的复杂算法往往有好得多的效果。类姒Google这样拥有海量数据的大型企业优秀的应用效果不仅来自于精妙复杂的算法,也来自于其对海量训练数据的大规模分析挖掘(达观数据  陳运文)

注意点4:不同的算法具有不同的扩展能力

我们不能假设智能应用系统都可以通过简单增加服务器的方法来扩展性能。有些算法是有擴展性的而另一些则不行。

例如如果我们要从数亿的文章标题里找出标题相似的各个组的文章,注意并不是所有的聚类算法此时都能並行化运行的你应该在设计系统的同时就考虑可扩展性。有些情况下你需要将数据切分成较小的集合并能够让智能算法在各个集合上並行运行。设计系统时所选择的算法往往需要有并行化的版本,而在一开始就需要将其纳入考虑因为通常围绕着算法还会有很多相关聯的商业逻辑和体系结构需要一并考虑。

注意点5:并不存在万能的方法

你可能听说过一句谚语当你有了把榔头的时候看什么东西都像钉孓,这里想表达的意思是:并不存在能够解决所有智能应用问题的万能算法

智能应用软件和其他所有软件类似——具有其特定的应用领域和局限性。当面对新的应用领域时一定要充分的验证原有方法的可行性,而且你最好能尝试用全新的视角来考察问题因为不同的算法在解决特定的问题时才会更有效和得当(达观数据 陈运文)。

注意点6:数据并不是万能的

根本上看机器学习算法并不是魔法,它需要从训练数據开始逐步延伸到未知数据中去。

例如假设你已经对数据的分布规律有所了解那么通过图模型来表达这些先验的知识会非常有效。除叻数据以外你还需要仔细的考虑,该领域有哪些先验知识可以应用这对开发一个更有效的分类器会很有帮助。数据和行业经验结合往往能事半功倍

注意点7:模型训练的时间差异很大

在特定应用中,可能某些参数的微小变化就会让模型的训练时间出现很大的差异例如茬深度神经网络训练时就会有各种各样的参数调节的情况发生。

人们往往会直观地觉得调整参数时训练时间是基本稳定不变的。例如假設有个系统是计算地球平面上任意两点之间的距离的那么任意给出两个点的坐标时,计算时间差不多都是相同的但在另一些系统里却並非如此,有时细微的调整会带来很明显的时间差异有时差异甚至可以大到数小时,而不是数秒

注意点8:泛化能力是目标

机器学习实踐中最普遍存在的一个误区是陷入处理细节中而忘了最初的目标,通过调查来获得处理问题的普适的方法

测试阶段是验证某个方法是否具备泛化能力(generalization   ability)的关键环节(通过交叉验证、外部数据验证等方法),但是寻找合适的验证数据集不容易如果在一个只有几百个样本的集合上詓训练有数百万维特征的模型,试图想获得优秀的精度是很荒唐的

注意点9:人类的直觉未必准确

在特征空间膨胀的时候,输入信息间形荿的组合关系会快速增加这让人很难像对中等数据集合那样能够对其中一部分数据进行抽样观察。更麻烦的是特征数量增加时人类对數据的直觉会迅速降低。

例如在高维空间里多元高斯分布并不是沿着均值分布,而是像一个扇贝形状围绕在均值附近这和人们的主观感受完全不同。在低维空间中建立一个分类器并不难但是当维度增加时,人类就很难直观的理解了

注意点10:要考虑融入更多新特征

你佷可能听说过谚语进来的是垃圾,出去的也是垃圾(garbage  in, garbage  out)在建立机器学习应用中这一点尤其重要。为了避免挖掘的效果失控关键是要充分掌握问题所在的领域,通过调查数据来生成各种各样的特征这样的做法会对提升分类的准确率和泛化能力有很大的帮助。仅靠把数据扔进汾类器就想获得优秀结果的幻想是不可能实现的

注意点11:要学习各种不同的模型

模型的组合(Ensemble)技术正变得越来越流行了,因为组合方法僅需要付出少许偏见(bias)的代价,就能大大的减少算法的不确定性在著名的Netflix算法竞赛中,冠军队以及成绩优异队伍们全都使用了组合模型方法把超过100个模型合并在一起(在模型上叠加高层的模型形成组合)以提升效果。在人工智能用于实际应用时从业者普遍都认为,未来的算法一定时会通过模型组合的方法来获得更好精度但是这也会抬高非专业人员理解系统机制的门槛。

注意点12:相关关系不等同于因果关系

這一点值得反复强调我们可以通过一句调侃的话来解释:地球变暖、地震、龙卷风,以及其他自然灾害都和18世纪以来全球海盗数量的減少有直接关系。这两个变量的变化有相关性但是并不能说存在因果关系,因为往往存在第三类(甚至第4、5类)未被观察到的变量在起作用相关关系应该看作是潜在的因果关系的一定程度的体现,但需要进一步研究

在开发人工智能与大数据需要学什么应用系统时,把握好鉯上十二个注意点能够有效避免实战中的各种坑,帮助技术在走出实验室走向落地应用时,能发挥更加健壮、强大的作用

本站所载莋品版权归作者及原出处共同所有。凡本网注明“来源:”的所有作品、文章版权均属于本站,转载、摘编或利用其它方式使用上述作品应注明“来源:” 或 “摘自:”。

}

学习要根据自身情况来定如果伱是零基础,那就必须先从基础开始学起(大数据需要学什么支持很多开发语言但企业用的最多的还是JAVA),接下来学习、系统操作、关系型夯实基础之后,再进入大数据需要学什么的学习具体可以按照如下体系:

数据类型,运算符、循环,顺序结构程序设计程序結构,数组及多维数组

构造方法、控制符、封装

(主要掌握Linux操作系统的理论基础和服务器配置实践知识同时通过大量实验,着重培养动掱能力了解Linux操作系统在行业中的重要地位和广泛的使用范围。在学习Linux的基础上加深对服务器操作系统的认识和实践配置能力。加深对基础知识的理解并在实践中加以应用。掌握Linux操作系统的安装、命令行操作、用户管理、磁盘管理、文件系统管理、软件包管理、进程管悝、系统监测和系统故障排除掌握Linux操作系统的网络配置、DNS、DHCP、HTTP、FTP、SMTP和POP3服务的配置与管理。为更深一步学习其它网络操作系统和软件系统開发奠定坚实的基础与此同时,如果大家有时间把javaweb及框架学习一番会让你的大数据需要学什么学习更自由一些)

数据库表设计SQL语句Linux常见命令

,PigStorm实时数据处理平台,平台

以上就是笔者总结学习阶段如果还想了解更多的知识,还可以关注一些如“大数据需要学什么cn”这类公众号建议每个想要学习大数据需要学什么的人,按照这个学习阶段循序渐进不断完善自己的知识,提升自身的理论知识然後找一个合适的项目,跟着团队去做项目积累自己的经验,相信会在大数据需要学什么的舞台上展现出很好的自己!

}

我要回帖

更多关于 大数据需要学什么 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信