有能用hdmi1.4口上4khdmi最高支持分辨率率的么

中国领先的IT技术网站
51CTO旗下网站
大数据工具比较:R语言和Spark 谁更胜一筹?
本文有两重目的,一是在性能方面快速对比下R语言和Spark,二是想向大家介绍下Spark的机器学习库。
作者:冷逸来源:| 13:48
由于R语言本身是单线程的,所以可能从性能方面对比Spark和R并不是很明智的做法。即使这种比较不是很理想,但是对于那些曾经遇到过这些问题的人,下文中的一些数字一定会让你很感兴趣。
你是否曾把一个机器学习的问题丢到R里运行,然后等上好几个小时?而仅仅是因为没有可行的替代方式,你只能耐心地等。所以是时候去看看Spark的机器学习了,它包含R语言大部分的功能,并且在数据转换和性能上优于R语言。
曾经我尝试过利用不同的机器学习技术&&R语言和Spark的机器学习,去解决同一个特定的问题。为了增加可比性,我甚至让它们运行在同样的硬件环境和操作系统上。并且,在Spark中运行单机模式,不带任何集群的配置。
在我们讨论具体细节之前,关于Revolution&R&有个简单的说明。作为R语言的企业版,Revolution&R试图弥补R语言单线程的缺 陷。但它只能运行在像Revolution&Analytics这样的专有软件上,所以可能不是理想的长期方案。如果想获得微软 Revolution&Analytics软件的扩展,又可能会让事情变得更为复杂,比方说牵扯到许可证的问题。
因此,社区支持的开源工具,像是Spark,可能成为比R语言企业版更好的选择。
数据集和问题
分析采用的是Kaggle网站&[译者注:Kaggle是一个数据分析的竞赛平台,网址:/]上的数字识别器的数据集,其中包含灰度的手写数字的图片,从0到9。
每张图片高28px,宽28px,大小为784px。每个像素都包含关于像素点明暗的值,值越高代表像素点越暗。像素值是0到255之间的整数,包括0和255。整张图片包含第一列在内共有785列数据,称为&标记&,即用户手写的数字。
分析的目标是得到一个可以从像素数值中识别数字是几的模型。
选择这个数据集的论据是,从数据量上来看,实质上这算不上是一个大数据的问题。
针对这个问题,机器学习的步骤如下,以得出预测模型结束:
在数据集上进行和,得到主要的特征。(特征工程的步骤)[译者注:百度百科传送门,、]。
对所有双位数字进行二元,并且根据它们的像素信息和主成分分析以及线性判别式分析得到的特征变量进行分类。
在全量数据上运行模型来进行多类分类。根据它们的像素信息和主成分分析以及线性判别式分析的特征变量,利用朴素贝叶斯分类模型进行分类。利用决策树分类模型来分类数字。
在上述步骤之前,我已经将标记的数据分成了训练组和测试组,用于训练模型和在精度上验证模型的性能。
大部分的步骤都在R语言和Spark上都运行了。详细的对比情况如下,主要是对比了主成分分析、二元逻辑模型和朴素贝叶斯分类模型的部分。
主成分分析
主成分分析的主要计算复杂度在对成分的打分上,逻辑步骤如下:
通过遍历数据以及计算各列的协方差表,得到KxM的权重值。(K代表主成分的个数,M代表数据集的特征变量个数)。
当我们对N条数据进行打分,就是矩阵乘法运算。
通过NxM个维度数据和MxK个权重数据,最后得到的是NxK个主成分。N条数据中的每一条都有K个主成分。
在我们这个例子中,打分的结果是42000&x&784的维度矩阵与784&x&9的矩阵相乘。坦白说,这个计算过程在R中运行了超过4个小时,而同样的运算Spark只用了10秒多
矩阵相乘差不多是3亿次运算或者指令,还有相当多的检索和查找操作,所以Spark的并行计算引擎可以在10秒钟完成还是非常令人惊讶的。
我通过查看前9个主成分的方差,来验证了所产生的主成分的精度。方差和通过R产生的前9个主成分的方差吻合。这一点确保了Spark并没有牺牲精度来换取性能和数据转换上的优势。
逻辑回归模型
与主成分分析不同的是,在逻辑回归模型中,训练和打分的操作都是需要计算的,而且都是极其密集的运算。在这种模型的通用的数据训练方案中包含一些对于整个数据集矩阵的转置和逆运算。
由于计算的复杂性,R在训练和打分都需要过好一会儿才能完成,准确的说是7个小时,而Spark只用了大概5分钟。
这里我在45个从0到9的双位数字上运行了二元逻辑回归模型,打分/验证也是在这45个测试数据上进行的。
我也并行执行了多元逻辑回归模型,作为多类分类器,大概3分钟就完成了。而这在R上运行不起来,所以我也没办法在数据上进行对比。
对于主成分分析,我采用&[译者注:&AUC的值就是计算出ROC曲线下面的面积,是度量分类模型好坏的一个标准。]&来衡量预测模型在45对数据上的表现,而Spark和R两者运行的模型结果的AUC值差不多。
朴素贝叶斯分类器
与主成分分析和逻辑回归不一样的是,朴素贝叶斯分类器不是密集计算型的。其中需要计算类的先验概率,然后基于可用的附加数据得到后验概率。[译者注:先验概率是指根据以往经验和分析得到的概率,它往往作为&由因求果&问题中的&因&出现的概率;后验概率是指在得到&结果&的信息后重新修正的概率,是&执果寻因&问题中的&果&。]
如上图所示,R大概花了45余秒完成,而Spark只用了9秒钟。像之前一样,两者的精确度旗鼓相当。
同时我也试着用Spark机器学习运行了决策树模型,大概花了20秒,而这个在R上完全运行不起来。
Spark机器学习入门指南
对比已经足够,而这也成就了Spark的机器学习。&最好是从编程指南开始学习它。不过,如果你想早点尝试并从实践中学习的话,你可能要痛苦一阵子才能将它运行起来吧。
为搞清楚示例代码并且在数据集上进行试验,你需要先去弄懂Spark的RDD&[译者注:RDD,Resilient&Distributed&Datasets,弹性分布式数据集]&支持的基本框架和运算。然后也要弄明白Spark中不同的机器学习程序,并且在上面进行编程。当你的第一个Spark机器学习的程序跑起来的时候,你可能就会意兴阑珊了。
以下两份资料可以帮你避免这些问题,同时理顺学习的思路:
Spark机器学习所有的源代码,可提供任何人拿来与R语言作对比:
Docker容器的源代码,Spark和上述项目的包已预置在内,以供快速实施:
&Docker容器中已事先安装Apache&Hadoop,并且在伪分布式环境下运行。这可以将大容量文件放进分布式文件系统来测试Spark。通过从分布式文件系统加载记录,可以很轻松地来创建RDD实例。
产能和精度
人们会使用不同的指标来衡量这些工具的好坏。对我来说,精准度和产能是决定性的因素。
大家总是喜欢R多过于Spark机器学习,是因为经验学习曲线。他们最终只能选择在R上采用少量的样本数据,是因为R在大数据量的样本上花了太多时间,而这也影响了整个系统的性能。
对我来说,用少量的样本数据是解决不了问题的,因为少量样本根本代表不了整体(至少在大部分情况下是这样)。所以说,如果你使用了少量样本,就是在精度上选择了妥协。
一旦你抛弃了少量样本,就归结到了生产性能的问题。机器学习的问题本质上就是迭代的问题。如果每次迭代都花费很久的话,那么完工时间就会延长。可是,如果每次迭代只用一点时间的话,那么留给你敲代码的时间就会多一些了。
R语言包含了统计计算的库和像这样可视化分析的库,所以它不可能被完全废弃,而且它所带来的挖掘数据和统计汇总的能力是毋庸置疑的。
但是,当遇到在大数据集上构建模型的问题时,我们应该去挖掘一些像Spark&ML的工具。Spark也提供R的包,可以在分布式数据集上应用R。
最好在你的&数据军营&中多放点工具,因为你不知道在&打仗&的时候会遇到什么。因此,是时候从过去的R时代迈入Spark&ML的新时代了。
原文:Tools in the data armoury: R vs Spark【编辑推荐】【责任编辑: TEL:(010)】
大家都在看猜你喜欢
原创外电外电头条专题
24H热文一周话题本月最赞
讲师:5人学习过
讲师:36人学习过
讲师:5人学习过
精选博文论坛热帖下载排行
20多年以来,《软件工程:实践者的研究方法》一书是最受学生和行业专业人员欢迎的软件工程指南。它在全面而系统、概括而清晰地介绍软件工程...
订阅51CTO邮刊工具类服务
编辑部专用服务
作者专用服务
基于Spark的大数据挖掘技术的研究与实现
大数据和大数据分析是目前IT领域里最炙手可热的概念,大数据具有3V的特点:(1)Volume:数据规模大;(2)Velocity:处理要求快,实时性要求比较高;(3)Variety:数据有丰富的多样性。为了让数据产生更大的价值,就需要选择一个高效的大数据处理平台来对其进行相应的分析。Spark是适用于大数据的高可靠性、高性能分布式并行计算框架。目前在国内外,已经有很多公司在实际生产环境中广泛使用Spark,比如国外的谷歌、亚马逊,易贝、雅虎等公司和国内的淘宝,百度,华为,优酷土豆等公司。  尽管Spark在实际的工业生产和实践中已经有了广泛的使用,但是受限于其诞生时间较晚、版本较新等因素。现阶段,使用Spark框架在有些具体大数据应用场景下进行挖掘和分析时,需要结合其原有模块并改写和添加一些功能,才能更好的发挥其作用。而在解决个别大数据挖掘问题时,Spark框架目前还没有相应的功能。比如分布式机器学习库MLlib里没有解决关联规则问题的分布式机器学习算法。  本文的主要工作为:(1)构建本文的实验测试环境,将Spark集群部署在Yarn上,即搭建一个由单个Master节点和多个Worker节点构成的Spark集群,集群使用的操作系统为Linux。在集群上对本文中的实验数据,算法和系统进行验证和测试。为更方便的进行Spark应用程序的开发和测试,搭建单机Scala编码环境IDEA,在单机模式下进行应用程序的编码和初步调试,并生成能够在集群上运行的jar包。(2)为了在大数据生产场景下实现分布式协同过滤推荐,本文使用Scala、Python、Java语言和Spark RDD并调用MLlib中的相关模块,实现分布式协同过滤推荐,并进行电影推荐。本文实现的分布式并行协同过滤推荐,是基于模型的推荐系统,获取最佳参数下的模型,用其进行预测测试集的评分和给用户进行推荐。在测试和验证实验结果时,选用经典的大电影数据集:MovieLens。(3)为了在大规模数据处理场景下实现关联分析,本文主要借助Scala语言和Spark RDD的分布式算子对经典的Apriori算法进行分布式并行编码处理,并在分布式集群上部署和运行,使用chess大数据集在Spark集群上进行测试和验证,和Java语言编写的单机Apriori算法进行运行效率和结果的比较。  本文所做的贡献为:(1)实现了将Spark集群部署在Yarn上,支持对集群规模进行扩充和调优。(2)提供了协同过滤推荐在分布式集群上并行运行的实现方案。(3)对Spark MLlib分布式机器学习库中没给出的关联分析问题的分布式算法提出了解决方案,即在分布式集群实现了并行Apriori算法。为协同过滤和关联分析类问题在大数据背景下的使用提供了可行的解决方案,以此丰富和提高了Spark框架在具体应用场景下的大数据挖掘能力。
学科专业:
授予学位:
学位授予单位:
导师姓名:
学位年度:
在线出版日期:
本文读者也读过
相关检索词
万方数据知识服务平台--国家科技支撑计划资助项目(编号:2006BAH03B01)(C)北京万方数据股份有限公司
万方数据电子出版社大数据工具比较:R语言和Spark 谁更胜一筹?_大数据的那些事吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0可签7级以上的吧50个
本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:2,393贴子:
大数据工具比较:R语言和Spark 谁更胜一筹?
背景介绍由于R语言本身是单线程的,所以可能从性能方面对比Spark和R并不是很明智的做法。即使这种比较不是很理想,但是对于那些曾经遇到过这些问题的人,下文中的一些数字一定会让你很感兴趣。你是否曾把一个机器学习的问题丢到R里运行,然后等上好几个小时?而仅仅是因为没有可行的替代方式,你只能耐心地等。所以是时候去看看Spark的机器学习了,它包含R语言大部分的功能,并且在数据转换和性能上优于R语言。曾经我尝试过利用不同的机器学习技术——R语言和Spark的机器学习,去解决同一个特定的问题。为了增加可比性,我甚至让它们运行在同样的硬件环境和操作系统上。并且,在Spark中运行单机模式,不带任何集群的配置。在我们讨论具体细节之前,关于Revolution R 有个简单的说明。作为R语言的企业版,Revolution R试图弥补R语言单线程的缺 陷。但它只能运行在像Revolution Analytics这样的专有软件上,所以可能不是理想的长期方案。如果想获得微软 Revolution Analytics软件的扩展,又可能会让事情变得更为复杂,比方说牵扯到许可证的问题。因此,社区支持的开源工具,像是Spark,可能成为比R语言企业版更好的选择。
数据集和问题分析采用的是Kaggle网站IRT-1 [译者注IRT-1:IRT-1Kaggle是一个数据分析的竞赛平台,网址:]上的数字识别器的数据集,其中包含灰度的手写数字的图片,从0到9。每张图片高28px,宽28px,大小为784px。每个像素都包含关于像素点明暗的值,值越高代表像素点越暗。像素值是0到255之间的整数,包括0和255。整张图片包含第一列在内共有785列数据,称为“标记”,即用户手写的数字。分析的目标是得到一个可以从像素数值中识别数字是几的模型。选择这个数据集的论据是,从数据量上来看,实质上这算不上是一个大数据的问题。对比情况针对这个问题,机器学习的步骤如下,以得出预测模型结束:在上述步骤之前,我已经将标记的数据分成了训练组和测试组,用于训练模型和在精度上验证模型的性能。大部分的步骤都在R语言和Spark上都运行了。详细的对比情况如下,主要是对比了主成分分析、二元逻辑模型和朴素贝叶斯分类模型的部分。主成分分析主成分分析的主要计算复杂度在对成分的打分上,逻辑步骤如下:在我们这个例子中,打分的结果是42000 x 784的维度矩阵与784 x 9的矩阵相乘。坦白说,这个计算过程在R中运行了超过4个小时,而同样的运算Spark只用了10秒多矩阵相乘差不多是3亿次运算或者指令,还有相当多的检索和查找操作,所以Spark的并行计算引擎可以在10秒钟完成还是非常令人惊讶的。我通过查看前9个主成分的方差,来验证了所产生的主成分的精度。方差和通过R产生的前9个主成分的方差吻合。这一点确保了Spark并没有牺牲精度来换取性能和数据转换上的优势。
逻辑回归模型与主成分分析不同的是,在逻辑回归模型中,训练和打分的操作都是需要计算的,而且都是极其密集的运算。在这种模型的通用的数据训练方案中包含一些对于整个数据集矩阵的转置和逆运算。由于计算的复杂性,R在训练和打分都需要过好一会儿才能完成,准确的说是7个小时,而Spark只用了大概5分钟。这里我在45个从0到9的双位数字上运行了二元逻辑回归模型,打分/验证也是在这45个测试数据上进行的。我也并行执行了多元逻辑回归模型,作为多类分类器,大概3分钟就完成了。而这在R上运行不起来,所以我也没办法在数据上进行对比。对于主成分分析,我采用AUC值 IRT-1[译者注IRT-1:IRT-1 AUC的值就是计算出ROC曲线下面的面积,是IRT-1度量分类模型好坏的IRT-1一个IRT-1标准IRT-1。IRT-1]IRT-1 来衡量预测模型在45对数据上的表现,而Spark和R两者运行的模型结果的AUC值差不多。朴素贝叶斯分类器与主成分分析和逻辑回归不一样的是,朴素贝叶斯分类器不是密集计算型的。其中需要计算类的先验概率,然后基于可用的附加数据得到后验概率。IRT-1[译者注IRT-1:IRT-1先验概率是指根据以往经验和分析得到的概率,它往往作为”由因求果”问题中的”因”出现的概率;后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的”果”。]如上图所示,R大概花了45余秒完成,而Spark只用了9秒钟。像之前一样,两者的精确度旗鼓相当。同时我也试着用Spark机器学习运行了决策树模型,大概花了20秒,而这个在R上完全运行不起来。
Spark机器学习入门指南对比已经足够,而这也成就了Spark的机器学习。 最好是从编程指南开始学习它。不过,如果你想早点尝试并从实践中学习的话,你可能要痛苦一阵子才能将它运行起来吧。为搞清楚示例代码并且在数据集上进行试验,然后也要弄明白Spark中不同的机器学习程序,并且在上面进行编程。当你的第一个Spark机器学习的程序跑起来的时候,你可能就会意兴阑珊了。容器中已事先安装Apache Hadoop,并且在伪分布式环境下运行。这可以将大容量文件放进分布式文件系统来测试Spark。通过从分布式文件系统加载记录,可以很轻松地来创建RDD实例。产能和精度人们会使用不同的指标来衡量这些工具的好坏。对我来说,精准度和产能是决定性的因素。大家总是喜欢R多过于Spark机器学习,是因为经验学习曲线。他们最终只能选择在R上采用少量的样本数据,是因为R在大数据量的样本上花了太多时间,而这也影响了整个系统的性能。对我来说,用少量的样本数据是解决不了问题的,因为少量样本根本代表不了整体(至少在大部分情况下是这样)。所以说,如果你使用了少量样本,就是在精度上选择了妥协。一旦你抛弃了少量样本,就归结到了生产性能的问题。机器学习的问题本质上就是迭代的问题。如果每次迭代都花费很久的话,那么完工时间就会延长。可是,如果每次迭代只用一点时间的话,那么留给你敲代码的时间就会多一些了。结论R语言包含了统计计算的库和像ggplot2这样可视化分析的库,所以它不可能被完全废弃,而且它所带来的挖掘数据和统计汇总的能力是毋庸置疑的。但是,当遇到在大数据集上构建模型的问题时,我们应该去挖掘一些像Spark ML的工具。Spark也提供R的包,SparkR可以在分布式数据集上应用R。最好在你的“数据军营”中多放点工具,因为你不知道在“打仗”的时候会遇到什么。因此,是时候从过去的R时代迈入Spark ML的新时代了。
贴吧热议榜
使用签名档&&
保存至快速回贴55 个实用的大数据可视化分析工具 - 文章 - 伯乐在线
& 55 个实用的大数据可视化分析工具
俗话说的好:工欲善其事,必先利其器!一款好的工具可以让你事半功倍,尤其是在大数据时代,更需要强有力的工具通过使数据有意义的方式实现数据可视化,还有数据的可交互性;我们还需要跨学科的团队,而不是单个数据科学家、设计师或数据分析员;我们更需要重新思考我们所知道的数据可视化,图表和图形还只能在一个或两个维度上传递信息, 那么他们怎样才能与其他维度融合到一起深入挖掘大数据呢?此时就需要倚仗大数据可视化(BDV)工具,因此,笔者收集了适合各个平台各种行业的多个图表和报表工具,这些工具中不乏有适用于NET、Java、Flash、HTML5、Flex等平台的,也不乏有适用于常规图表报表、甘特图、流程图、金融图表、工控图表、数据透视表、OLAP多维分析等图表报表开发的。为了进一步让大家了解如何选择适合的数据可视化产品,本文将围绕这一话题展开,希望能对正在选型中的企业有所帮助。下面就来看看全球备受欢迎的的可视化工具都有哪些吧!
Excel作为一个入门级工具,是快速分析数据的理想工具,也能创建供内部使用的数据图,但是Excel在颜色、线条和样式上课选择的范围有限,这也意味着用Excel很难制作出能符合专业出版物和网站需要的数据图。
二、Google Chart API
提供了一种非常完美的方式来可视化数据,提供了大量现成的图标类型,从简单的线图表到复杂的分层树地图等。它还内置了动画和用户交互控制。
(Data Driven Documents)是支持SVG渲染的另一种JavaScript库。但是D3能够提供大量线性图和条形图之外的复杂图表样式,例如Voronoi图、树形图、圆形集群和单词云等。
语言是主要用于统计分析、绘图的语言和操作环境。虽然R主要用于统计分析或者开发统计相关的软件,但也有用作矩阵计算。其分析速度可比美GNUOctave甚至商业软件MATLAB。
五、Visual.ly
如果你需要制作信息图而不仅仅是数据可视化,是最流行的一个选择。
六、Processing
是数据可视化的招牌工具。你只需要编写一些简单的代码,然后编译成Java。Processing可以在几乎所有平台上运行。
七、Leaflet
是一个开源的JavaScript库,用来开发移动友好地交互地图。
八、Openlayers
可能是所有地图库中可靠性最高的一个。虽然文档注释并不完善。且学习曲线非常陡峭,但是对于特定的任务来说,Openlayers能够提供一些其他地图库都没有的特殊工具。
九、PolyMaps
是一个地图库,主要面向数据可视化用户。PolyMaps在地图风格化方面有独到之处,类似CSS样式表的选择器。
十、Charting Fonts
Charting Fonts是将符号字体与字体整合(把符号变成字体),创建出漂亮的矢量化图标。
十一、Gephi
是进行社会图谱数据可视化分析的工具,不但能处理大规模数据集并且Gephi是一个可视化的网络探索平台,用于构建动态的、分层的数据图表。
十二、CartoDB
是一个不可错过的网站,你可以用CartoDB很轻易就把表格数据和地图关联起来,这方面CartoDB是最优秀的选择。
十三、Weka
是一个能根据属性分类和集群大量数据的优秀工具,Weka不但是数据分析的强大工具,还能生成一些简单的图表。
十四、NodeBox
是OS X上创建二维图形和可视化的应用程序,你需要了解Python程序,NodeBox与Processing类似,但没有Processing的互动功能。
十五、Kartograph
不需要任何地图提供者像Google Maps,用来建立互动式地图,由两个libraries组成,从空间数据开放格式,利用向量投影的Python library以及post GIS,并将两者结合到SVG和JavaScript library,并把这些SVG资料转变成互动性地图。
十六、Modest Maps
是一个很小的地图库,在一些扩展库的配合下,例如Wax、Modest Maps立刻会变成一个强大的地图工具。
十七、Tangle
是一个用来探索,Play和可以立即查看文档更新的交互工具。
十八、Crossfilter
既是图表,又是互动图形用户界面的小程序,当你调整一个图表中的输入范围时,其他关联图表的数据也会随之改变
十九、Raphael
是创建图表和图形的JavaScript库,与其他库最大的不同是输出格式仅限SVG和VML.
二十、jsDraw2DX
是一个标准的JavaScript库,用来创建任意类型的SVG交互式图形,可生成包括线、矩形、多边形、椭圆、弧线等图形。
二十一、Pizza Pie Charts
是个响应式饼图图表,基于Adobe Snap SVG框架,通过HTML标记和CSS来替代JavaScript对象,更容易集成各种先进的技术。
二十二、Fusion Charts Suit XT
是一款跨平台、跨浏览器的JavaScript图表组件,为你提供令人愉悦的JavaScript图表体验。它是最全面的图表解决方案,包含90+图表类型和众多交互功能,包括3D、各种仪表、工具提示、向下钻取、缩放和滚动等。它拥有完整的文档以及现成的演示,可以帮助你快速创建图表。
二十三、iCharts
提供可一个用于创建并呈现引人注目图表的托管解决方案。有许多不同种类的图表可供选择,每种类型都完全可定制,以适合网站的主题。iCharts有交互元素,可以从Google Doc、Excel表单和其他来源中获取数据。
二十四、Modest Maps
是一个轻量级、可扩展的、可定制的和免费的地图显示类库,这个类库能帮助开发人员在他们自己的项目里能够与地图进行交互。
二十五、Raw
局域非常流行的D3.js库开发,支持很多图表类型,例如泡泡图、映射图、环图等。它可以使数据集在途、复制、粘贴、拖曳、删除于一体,并且允许我们定制化试图和层次。
二十六、Springy
设计清凉并且简答。它提供了一个抽象的图形处理和计算的布局,支持Canvas、SVG、WebGL、HTML元素。
二十七、Bonsai
使用SVG作为输出方式来生成图形和动画效果,拥有非常完整的图形处理API,可以使得你更加方便的处理图形效果。它还支持渐变和过滤器(灰度、模糊、不透明度)等效果。
二十八、Cube
是一个开源的系统,用来可视化时间系列数据。它是基于MongoDB、NodeJS和D3.js开发。用户可以使用它为内部仪表板构建实时可视化的仪表板指标。
二十九、Gantti
是一个开源的PHP类,帮助用户即时生成Gantti图表。使用Gantti创建图表无需使用JavaScript,纯HTML-CSS3实现。图表默认输出非常漂亮,但用户可以自定义样式进行输出(SASS样式表)。
三十、Smoothie Charts
是一个十分小的动态流数据图表路。通过推送一个webSocket来显示实时数据流。Smoothie Charts只支持Chorme和Safari浏览器,并且不支持刻印文字或饼图,它很擅长显示流媒体数据。
三十一、Flot
是一个优秀的线框图表库,支持所有支持canvas的浏览器(目前主流的浏览器如火狐、IE、Chrome等都支持)。
三十二、Tableau Public
是一款桌面可视化工具,用户可以创建自己的数据可视化,并将交互性数据可视化发布到网页上。
三十三、Many Eyes
是一个Web应用程序,用来创建、分享和讨论用户上传图形数据。
三十四、Anychart
是一个灵活的基于Flash/JavaScript(HTML5)的图表解决方案、跨浏览器、跨平台。除了图表功能外,它还有一款收费的交互式图表和仪表。
三十五、Dundas Chart
处于行业领先地位的NET图表处理控件,于2009年被微软收购,并将图表产品的一部分功能集成到Visual Studio中。
三十六、TimeFlow
是为了暂时性资料的视觉化工具,现在有alpha版本因此有机会可以发现差错,提供以下不同的呈现方式:时间轴、日历、柱状图、表格等。
三十七、Protovis
是一个可视化JavaScript图表生成工具。
三十八、Choosel
是可扩展的模块化Google网络工具框架,可用来创建基于网络的整合了数据工作台和信息图表的可视化平台。
三十九、Zoho Reports
支持丰富的功能帮助不同的用户解决各种个性化需求,支持SQL查询、类四暗自表格界面等。
四十、Quantum GIS(QDIS)
是一个用户界面友好、开源代码的GIS客户端程序,支持数据的可视化、管理、编辑与分析和印刷地图的制作。
四十一、NodeXL
主要功能是社交网络可视化。
四十二、OpenStreetMap
是一个世界地图,由像您一样的人们所构筑,可依据开放协议自由使用。
四十三、OpenHeatMap
简单易用,用户可以用它上传数据、创建地图、交流信息。它可以把数据(如Google Spreadsheet的表单)转化为交互式的地图应用,并在网上分享。
四十四、Circos
最初主要用于基因组序列相关数据的可视化,目前已应用于多个领域,例如:影视作品中的人物关系分析,物流公司的订单来源和流向分析等,大多数关系型数据都可以尝试用Circos来可视化。
四十五、Impure
是一个可视化编程语言,旨在收集、处理可视化信息。
四十六、Polymaps
是一个基于矢量和tile创建动态、交互式的动态地图。
四十七、Rickshaw
是一个基于D3.JS来创建序交互式的时间序列图表库。
四十八、Sigma.js
是一个开源的轻量级库,用来显示交互式的静态和动态图表。
四十九、Timeline
即时间轴,用户通过这个工具可以一目了然的知道自己在何时做了什么。
五十、BirdEye
是Decearative Visual Analytics,它属于一个群体专案,为了要提升设计和广泛的开源资料视觉化发展,并且为了Adobe Flex建视觉分析图库,这个动作以叙述性的资料库为主,让使用者能够建立多元资料视觉化界面来分析以及呈现资讯。
五十一、Arbor.Js
提供有效率、以力导向的版面配置演算法,抽象画图表组织以及筛选更新的处理。
五十二、Highchart.js
是单纯由JavaScript所写的图表资料库,提供简单的方法来增加互动性图表来表达你的网站或网站应用程式。目前它能支援线图、样条函数图。
五十三、Paper.js
是一个开源向量图表叙述架构,能够在HTML5 Canvas 运作,对于初学者来说它是很容易学习的,其中也有很多专业面向可以提供中阶及高阶使用者。
五十四、Visualize Free
是一个建立在高阶商业后台集游InetScoft开发的视觉化软体免费的视觉分析工具,可从多元变量资料筛选并看其趋势,或是利用简单地点及方法来切割资料或是小范围的资料。
五十五、GeoCommons
可以使用户构建富交互可视化应用来解决问题,即使他们没有任何传统地图使用经验。你可以将实社会化数据或者GeoCommons保存的超5万份开源数据在地图上可视化,创造带交互的可视化分析作品,并将作品嵌入网站、博客或分享到社交网络上。
传统的数据可视化工具仅仅将数据加以组合,通过不同的展现方式提供给用户,用于发现数据之间的关联信息。近年来,随着云和大数据时代的来临,数据可 视化产品已经不再满足于使用传统的数据可视化工具来对数据仓库中的数据抽取、归纳并简单的展现。新型的数据可视化产品必须满足互联网爆发的大数据需求,必须快速的收集、筛选、分析、归纳、展现决策者所需要的信息,并根据新增的数据进行实时更新。因此,在大数据时代,数据可视化工具必须具有以下特性:
(1)实时性:数据可视化工具必须适应大数据时代数据量的爆炸式增长需求,必须快速的收集分析数据、并对数据信息进行实时更新;
(2)简单操作:数据可视化工具满足快速开发、易于操作的特性,能满足互联网时代信息多变的特点;
(3)更丰富的展现:数据可视化工具需具有更丰富的展现方式,能充分满足数据展现的多维度要求;
(4)多种数据集成支持方式:数据的来源不仅仅局限于数据库,数据可视化工具将支持团队协作数据、数据仓库、文本等多种方式,并能够通过互联网进行展现。
数据可视化技术在现今是一个新兴领域,有越来越多的发展、研究等数据可视化分析,在诸如美国这些国家不断被需求。企业获取数据可视化功能主要通过编程和非编程两类工具实现。主流编程工具包括以下三种类型:从艺术的角度创作的数据可视化,比较典型的工具是 Processing.js,它是为艺术家提供的编程语言。从统计和数据处理的角度,R语言是一款典型的工具,它本身既可以做数据分析,又可以做图形 理。介于两者之间的工具,既要兼顾数据处理,又要兼顾展现效果,D3.js是一个不错的选择。像D3.js这种基于Javascript的数据可视化工具更适合在互联网上互动的展示数据。
可能感兴趣的话题
关于伯乐在线博客
在这个信息爆炸的时代,人们已然被大量、快速并且简短的信息所包围。然而,我们相信:过多“快餐”式的阅读只会令人“虚胖”,缺乏实质的内涵。伯乐在线内容团队正试图以我们微薄的力量,把优秀的原创文章和译文分享给读者,为“快餐”添加一些“营养”元素。
新浪微博:
推荐微信号
(加好友请注明来意)
– 好的话题、有启发的回复、值得信赖的圈子
– 分享和发现有价值的内容与观点
– 为IT单身男女服务的征婚传播平台
– 优秀的工具资源导航
– 翻译传播优秀的外文文章
– 国内外的精选文章
– UI,网页,交互和用户体验
– 专注iOS技术分享
– 专注Android技术分享
– JavaScript, HTML5, CSS
– 专注Java技术分享
– 专注Python技术分享
& 2017 伯乐在线}

我要回帖

更多关于 能测试4k分辨率 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信