微信获取书单,关注公众号,搜索:推荐书(tuijianshu-net) 以下推荐图书,如未有购买链接,可直接点击以下各大知名网上书店进行购买:
翻译:莫映 / 王开福
本书由StuQ/InfoQ大数据专家交流群倾力推荐。 本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。 全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。 本书是Web开发者、架构师、应用工程师等的绝佳选择。
翻译:范明 / 范宏建 本书完全通过案例学习来展示如何用Hadoop解决特殊问题,如果您拥有海量数据,无论是GB级还是PB级,Hadoop都是完美的选择。本书是这方面最全面的参考。
《大数据技术丛书·Hadoop技术内幕》 从应用角度系统讲解YARN的基本库和组件用法、应用程序设计方法、YARN上流行的各种计算框架,以及多个类YARN的开源资源管理系统。 从源代码角度深入分析YARN的设计理念与基本架构、各个组件的实现原理,以及各种计算框架的实现细节。 从源代码角度深入分析MapReduce的设计理念,以及RPC框架、客户端、JobTracker、TaskTracker和Task等运行时环境的架构设计与实现原理。 深入探讨Hadoop性能优化、多用户作业调度器、安全机制、下一代MapReduce框架等高级主题。
翻译:李锐/李鹏/曲亚东/王斌 本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。 全书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。通过各种实例,读者可从中学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高级的功能,如汇总和简化等。 《大规模分布式存储系统:原理解析与架构实战》是分布式系统领域的经典著作,由阿里巴巴高级技术专家“阿里日照”(OceanBase核心开发人员)撰写,阳振坤、章文嵩、杨卫华、汪源、余锋(褚霸)、赖春波等来自阿里、新浪、网易和百度的资深技术专家联袂推荐。理论方面,不仅讲解了大规模分布式存储系统的核心技术和基本原理,而且对谷歌、、微软和阿里巴巴等国际型大互联网公司的大规模分布式存储系统进行了分析;实战方面,首先通过对阿里巴巴的分布式数据库OceanBase的实现细节的深入剖析完整地展示了大规模分布式存储系统的架构与设计过程,然后讲解了大规模分布式存储技术在云计算和大数据领域的实践与应用。 《大规模分布式存储系统:原理解析与架构实战》内容分为四个部分:基础篇——分布式存储系统的基础知识,包含单机存储系统的知识,如数据模型、事务与并发控制、故障恢复、存储引擎、压缩/解压缩等;分布式系统的数据分布、复制、一致性、容错、可扩展性等。范型篇——介绍谷歌、亚马逊、微软、阿里巴巴等著名互联网公司的大规模分布式存储系统架构,涉及分布式文件系统、分布式键值系统、分布式表格系统以及分布式数据库技术等。实践篇——以阿里巴巴的分布式数据库OceanBase为例,详细介绍分布式数据库内部实现,以及实践过程中的经验。专题篇——介绍分布式系统的主要应用:云存储和大数据,这些是近年来的热门领域,本书介绍了云存储平台、技术与安全,以及大数据的概念、流式计算、实时分析等。 作者:[英]维克托·迈尔-舍恩伯格,[英]肯尼思·库克耶 1、绝不是有很多数据就叫大数据; 2、大数据是一种数据分析方式,与传统数据分析方式有着本质上的不同; 3、大数据的特点是“关注相关性,不关注因果”,这是大数据最核心的东西,一定要真正理解,并牢牢记住,不然你就很容易被别人忽悠; 4、大数据采用的是统计的方法; 5、大数据主要是结合人工智能进行机器的自动数据挖掘; 6、大数据主要是用来作预测的。而不是象一般的数据分析,只是分析出历史情况和现状,未来还是要靠人去预测,大数据则是直接告诉你未来的结果。 为什么是这本书呢?学完初级阶段要记住的几件事还没忘吧?对,用统计的方法,而不是因果的方法,预测未来。 在对预测机制进行剖析的时候,法默最喜欢用这个例子来进行说明:「来,接着!」他说着就朝你扔过来一个棒球。你抓住了球。「你知道你是怎么接住这个球的吗?」,他问道。「通过预测。」 用f=ma(公式)来预测,或者说线性预测,就是通过因果推理来进行预测,即根据球的质量、加速度等等因素,找出这个球为什么会从那个地方飞到这个地方的原因; 而“归纳”即是“统计”的意思,或者说是较粗略的统计,归纳是不问原因的,接住这个球就完了,管它是什么原因。 你想成为大数据高手,你想用统计的方法来对某些东西进行预测? 好了,现在你来告诉我,还有什么理由不去好好读这本书?
作者: [美] 艾伯特-拉斯洛·巴拉巴西 Barabasi的研究是在人类生活数字化的大数据时代基础上进行的,移动电话、网络以及电子邮件使人类 行为变得更加容易量化,将我们的社会变成了一个巨大的数据库。他认为,人类正处在一个聚合点上,在这里数据、科学以及技术都联合起来共同对抗那个最大的谜题——我们的未来。 在本书中,Barabasi揭开人类行为背后隐藏的模式“爆发”,提出人类日常行为模式不是随机的,而是具有“爆发性”的。爆发揭开了人类行为中令人惊讶的深层次的秩序,使得人类变得比预期中更容易预测得多。 爆发模式的揭示,其将与20世纪初期的物理学或者基因革命的影响力不相上下。 几年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价。读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔可夫链、矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣。今年,作者吴军博士几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。读者通过具体的例子学到的是思考问题的方式 —— 如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新。
作者:[美]尼古拉斯·雷舍尔 推荐这本书还有个原因。大家都知道大数据是研究数据的相关性,即找出数据之间的关系。当我经历了15年统计学人工智能数据相关性的探索和研究,感觉已经研究得差不多了,但又觉得要解决所有的问题还有不小的距离,这时就感到很迷茫,不知下一步的研究该往何方去,有种路越走越窄的感觉,又有一种达到顶峰的幻觉,直到看到这本书中的一句话:“可以考虑它们的关系,再考虑这些关系中的关系,如此下去。” 大家千万不要小看这句话中的“如此下去”几个字,他指明了一个无穷叠代,即 “关系的关系的……关系”,而智能将在这里涌现,解决复杂性问题预测的关键很可能就在这里,这句话打开了一个非常广阔的前景,将象宇宙一样没有穷尽。 你一定有疑问,“这本书就能让我改变世界观?”那么我们就来看看书中说些什么吧:量子世界的本质是“随机性”。传统观念中的严格因果关系在量子世界是不存在的,必须以一种统计性的解释来取而代之,波函数ψ就是一种统计,它的平方代表了粒子在某处出现的概率。当我们说“电子出现在x处”时,我们并不知道这个事件的“原因”是什么,它是一个完全随机的过程,没有因果关系。 因果性必须死,因为物理学需要生! 停止争论吧,上帝真的掷骰子!随机性是世界的基石,当电子出现在这里时,它是一个随机的过程,并不需要有谁给它加上难以忍受的条条框框。……而统计规律则把微观上的无法无天抹平成为宏观上的井井有条。——摘自《量子物理史话》 “统计规律则把微观上的无法无天抹平成为宏观上的井井有条”,这句话实际上就是表明,统计方法可以使极其复杂的随机事件成为可预测。我认为,社会、市场、股票等等与量子世界有着很多相似之处。由于量子理论实际上是从最本质上去研究我们存在于其中的这个世界,因此正如书中的一句话:“这个世界的本质:它本就是统计性的!
《统计自然语言处理基础》 第一,在计算机专业,数据并不仅仅是指数字,文字、图片、声音、视频等都叫数据; 第二,语言比数字难很多,如果你能处理语言,那处理纯数字就容易很多。 你可能还有一个疑问,统计自然语言处理与一般的自然语言处理有什么本质不同之处? 统计自然语言处理是更接近自然的自然语言处理方式(绕口令?),也就是说更接近我们人的处理方式,甚至可以说就是人或自然的处理方式,只是人的大脑处理方式更复杂而已,但本质是一样的。 读完了这本书,不代表你就成为大数据高手了,实际上它只是为你打下基础知识,真正掌握大数据的方法,需要你在这个基础上去探索或者说悟出来。 如果您喜欢这篇文章,请分享给身边的人! 我们一直在努力…… 书是人类进步的阶梯!多读书,读好书,我们给您推荐好书! 推荐书书友QQ群:书友①群: (已满)推荐书书友QQ群:书友②群: (已满) 推荐书书友QQ群:书友③群: 推荐书书友QQ群:童书群: 推荐书书友QQ群:网络小说群: 板块一起交流! 微 信: 推荐书(tuijianshu-net),扫描左侧二维码或公众号搜索推荐书 |
时间: 来源:电影涨资势 作者:γ大头虾
本文首发于微信公众号:电影涨资势(filmmore),欢迎关注。
2016年刚开年就有电影宣布改档了,比如那个《什么2》。俗话说一言九鼎,可在电影圈,总有那么一波电影说话不算数。撤档、改档、改档、撤档……反反复复折腾,跟没头苍蝇一样乱撞,结果来来回回半天,票房也还是不尽如人意,只是更加凸显了制片方对电影本身的不自信,也暴露了他们对档期分析的不足。那我们今天就来说说经常让制片方大脑短路的档期问题吧,大数据会明明白白告诉你哒。
大片必争三大热门档期 不够火候别硬碰
根据国家新闻出版广电总局电影局通报数据,我国2015年年度总票房高达440.69亿元,较去年的296.39亿元增长了48.7%,创下“十二五”以来最高年度增幅,这一成绩也位居自2004年以来年票房增幅第二位,仅次于2010年的63%。
去年年度票房增幅迅猛,但三大热门档期——春节档、暑期档、贺岁档增幅均跑输大盘。2015年,覆盖全年133天的三大热门档期,合计贡献超过190.1亿元票房,同比增长37.2%。也就是说三大档期用了36.4%的时间,创造了43.1%的票房占比,投入产出比只能算是正常,并没有很抢眼。
从2011年至2014年这四年暑期档和贺岁档的表现来看,暑期档共有3次超过大盘增速,贺岁档只贡献一次。但像2015年这样双双跑输大盘的情况,还属5年来的首次。毋庸置疑,春节、暑期和贺岁三大档期依旧是全年的票仓产出大户,通过这几年的洗礼,这三大档期在我国的发展也已经趋于成熟,增幅理性且稳定。
2015年国产片、进口片票房top10
三大热门档期每年都是大片的必争之地。2015年国产片票房前十位中,7部电影在这三个档期开画。其中年度票房冠军、以及,均开启于暑期档,春节档也有、《天将雄狮》和三部电影,贺岁档则有,可见这三大档期竞争的激烈程度。因此不建议中小成本影片硬碰大片,强弩上画,否则很可能遭遇排片困境。但如果本身影片质量不错,有营销突破口,那可给大片空出2周的票房爆炸期,再上画,有望突围。
暑期档比较特殊,这一档期通常指从6月初至8月底横跨三个月,容量极大,一般大制作国产片会选择7月中旬上映,从8月中下旬开始,则基本被外片占领。因此一些中、轻量级的电影,也可以选择6月上映,但这个月份是学生考试月,对那些主打学生人群的电影,包括动画片来说都不是好时机。其实,7月初及8月初,一些影片可以打时间差上画,不过票房放量可能只有1周或1周半的时间。
下一页:中秋国庆档潜力巨大 小长假全面发力大有可为
策划、撰文、制作/电影涨资势
]独家原创稿件,未经授权不得转载,违者将追究其相关法律责任
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。