哪里可以找word,ppt,word excel ppt案例的单源？

点击联系发帖人 时间：2016-11-05 04:12

word excel ppt教程

&figure&&img src=&/v2-3bbb8fe8ba466c8daade455f1c5c005a_b.jpg& data-rawwidth=&426& data-rawheight=&200& class=&origin_image zh-lightbox-thumb& width=&426& data-original=&/v2-3bbb8fe8ba466c8daade455f1c5c005a_r.jpg&&&/figure&&p&这里是 --& &a href=&/?target=http%3A//scarletpan.github.io/summary-of-get-a-silver-medal-in-kaggle/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&原文链接&i class=&icon-external&&&/i&&/a&&/p&&p&我的比赛代码已经放到github --& &a href=&/?target=https%3A///ScarletPan/Kaggle-Rental-Listing-Inquireies& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Kaggle-Rental-Listing-Inquireies&i class=&icon-external&&&/i&&/a&&/p&&p&[更新] &a href=&/?target=https%3A///ScarletPan/Kaggle-Rental-Listing-Inquireies/blob/master/ppt/AIC-Sharing-11-19.pptx& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&AI Challenge 分享PPT&i class=&icon-external&&&/i&&/a& &/p&&p&
在这篇博客开始之前，我必须感谢导师给我提供服务器资源，@&a href=&/?target=http%3A//fenixlin.github.io/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Fenix Lin&i class=&icon-external&&&/i&&/a&学长从他自身经验出发耐心地为我解答一些困惑，素未谋面的@&a href=&/?target=https%3A///& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Wille&i class=&icon-external&&&/i&&/a&学长的一篇非常优秀的博文&a href=&/?target=https%3A///2016/04/rank-10-percent-in-first-kaggle-competition/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&如何在 Kaggle 首战中进入前 10%&i class=&icon-external&&&/i&&/a&帮助入门，以及广大Kaggler的无私分享，我确实在Kaggle举行的这场&a href=&/?target=https%3A///c/two-sigma-connect-rental-listing-inquiries& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Rental Listing Inquiries&i class=&icon-external&&&/i&&/a&比赛中收益良多，获得了不少知识。作为第一次参加比赛，获得了Top 5%的成绩已经让我非常满意了。&/p&&p&&br&&/p&&figure&&img src=&/v2-7c90ed2ba6420a8ffa0ce37c37c68e6a_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&950& data-rawheight=&878& class=&origin_image zh-lightbox-thumb& width=&950& data-original=&/v2-7c90ed2ba6420a8ffa0ce37c37c68e6a_r.jpg&&&/figure&&p&
这篇文章的目的是介绍自己第一次参加Kaggle的心历路程，总结遇到的问题和解决思路，为自己以后参赛做准备。同时这篇文章也可以作为一个初学者的入门Kaggle的参考，如果想要在入门kaggle的时候拿到一个好的名次，可以参考我的一些方法实践。本文可以随意转载，但务必&b&注明出处和作者&/b&, 并且发邮件&i&&/i&通知与我。&br&&/p&&p&&br&&/p&&h2&&b&初识Kaggle&/b&&/h2&&p&&b&什么是Kaggle&/b&&/p&&p&&br&&/p&&p&
从刚接触machine learning的时候就有在学长口中、博文中、社区中听到过它的名字，当初我对它的理解还比较浮浅，只是知道是一个数据比赛的平台，有很多公开的数据集，比如大二寒假做的第一个ML练手项目就是一个用word2vec进行情感分析的Tutorial级比赛&a href=&/?target=https%3A///c/word2vec-nlp-tutorial/data& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Bag of Words Meets Bags of Popcorn&i class=&icon-external&&&/i&&/a&，并且写了一个&a href=&/?target=http%3A//o6qr23o6z./paper%2520for%2520sentiment%2520analysis.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Research report&i class=&icon-external&&&/i&&/a&。这过程中只用到了教程和数据集。&/p&&p&&br&&/p&&p&
后来重新接触Kaggle才发现，它的价值所在是各种高质量的比赛，以及每场比赛下面的社区讨论（包括比赛中的分享、答疑，和比赛后的top solution分享），因此如果想要获得关于数据挖掘，机器学习实战经验的话，打一场kaggle比赛绝对是一个高回报的工作。 &/p&&p&&br&&/p&&p&
因为还是学生，不知道kaggle比赛究竟是否会为自己求职工作有举足轻重的影响，但是单从Kaggle被google收购一点来看，它会在行业内一点点提升影响力的。 &/p&&p&&b&比赛组织&/b& &/p&&p&&br&&/p&&p&
一场比赛通常持续2～3个月，在比赛的简介中会有规则、评价指标（比如这场比赛为mlogloss），时间轴等信息。另外还有数据区、Kernel区（一些Kagglers在kaggle上成功运行的ipython notebook或者代码），Discussion（讨论区），LeaderBoard（LB，分为公开的用户提交可以显示结果的榜单，和非公开的比赛结束后确定最终排名的榜单），当然还有提交区（一般为一定格式的csv文件提交）。&/p&&p&&br&&/p&&p&
另外就是奖牌问题，一般来讲在1000+量级的比赛中，top 10+ 0.2%为金牌，5%为银牌，10%为铜牌，&a href=&/?target=https%3A///progression& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&这里&i class=&icon-external&&&/i&&/a&有更具体的奖牌发放方式。&/p&&p&&b&讨论区&/b&&/p&&p&&br&&/p&&p&
个人认为，如果想在入门Kaggle阶段就获得一个好的成绩的话，关注discussion是非常重要的，会有很多人分享自己的思路、困惑甚至代码和结果。有时候，一场比赛中比较关键的feature可能就是从讨论区中获得的，比如&a href=&/?target=https%3A///c/two-sigma-connect-rental-listing-inquiries& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Two Sigma Connect: Rental Listing Inquiries&i class=&icon-external&&&/i&&/a&这场比赛的最后几天，我以为自己特征提取得已经差不多了，没有任何idea了的时候，一个来自讨论区magic feature从天而降，从而使得榜单大变，一夜之间我的排名从70多掉到了120多。&/p&&p&&br&&/p&&p&&br&&/p&&h2&&b&数据探索和可视化（EDA）&/b&&/h2&&p&
首先拿到一个比赛题目，你需要下决心是否参加这个比赛，对我个人而言最重要的无非两点 1. 是不是有rank point，也就是奖牌， 2. 数据集是否令我满意。因此对数据的探索首先需要你从Kaggle网站上查看数据的简介，并把数据下载下来。比如&a href=&/?target=https%3A///c/two-sigma-connect-rental-listing-inquiries& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Rental Listing Inquiries&i class=&icon-external&&&/i&&/a&包含了80G的图片数据，和几份json文件。&/p&&p&&br&&/p&&p&
我们将下载下来的train.csv用python pandas 打开，取少量样本进行观测&/p&&div class=&highlight&&&pre&&code class=&language-python&&&span&&/span&&span class=&n&&In&/span& &span class=&p&&[&/span&&span class=&mi&&1&/span&&span class=&p&&]:&/span& &span class=&kn&&import&/span& &span class=&nn&&pandas&/span& &span class=&kn&&as&/span& &span class=&nn&&pd&/span&
&span class=&n&&In&/span& &span class=&p&&[&/span&&span class=&mi&&2&/span&&span class=&p&&]:&/span& &span class=&n&&train&/span& &span class=&o&&=&/span& &span class=&n&&pd&/span&&span class=&o&&.&/span&&span class=&n&&read_json&/span&&span class=&p&&(&/span&&span class=&s2&&&input/train.json&&/span&&span class=&p&&)&/span&
&span class=&n&&In&/span& &span class=&p&&[&/span&&span class=&mi&&3&/span&&span class=&p&&]:&/span& &span class=&n&&train&/span&&span class=&o&&.&/span&&span class=&n&&sample&/span&&span class=&p&&(&/span&&span class=&mi&&2&/span&&span class=&p&&)&/span&
&/code&&/pre&&/div&&figure&&img src=&/v2-ca9c3bfc6552cdd92b0b381eee69a8ef_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&974& data-rawheight=&294& class=&origin_image zh-lightbox-thumb& width=&974& data-original=&/v2-ca9c3bfc6552cdd92b0b381eee69a8ef_r.jpg&&&/figure&&figure&&img src=&/v2-5d1fe7d1469a8dcb01a7d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&888& data-rawheight=&294& class=&origin_image zh-lightbox-thumb& width=&888& data-original=&/v2-5d1fe7d1469a8dcb01a7d_r.jpg&&&/figure&&p&&br&&/p&&p&
抛开图片数据不谈，我们可以看到给定的数据里包含多种多样的feature：&/p&&ul&&li&数值型feature&/li&&ul&&li&bathrooms&/li&&li&bedrooms&/li&&li&price&/li&&/ul&&li&高势集类别（High Categorical）型feature&/li&&ul&&li&building_id&/li&&li&display_address&/li&&li&manager_id&/li&&li&street_address&/li&&/ul&&li&时间型feature&/li&&ul&&li&created&/li&&/ul&&li&地理位置型feature&/li&&ul&&li&longitude&/li&&li&latitude&/li&&/ul&&li&文本feature&/li&&ul&&li&description&/li&&/ul&&li&稀疏特征集feature&/li&&ul&&li&features&/li&&/ul&&li&id型feature&/li&&ul&&li&listing_id&/li&&li&index&/li&&/ul&&/ul&&p&&br&&/p&&p&
我们看到有这么多不同的feature，一看几乎每个feature都有深度挖掘的价值，何况还有80G的图片feature，无疑是让人兴奋的，因此我选择了这个比赛，因为它的数据集的确让我舒心。&/p&&p&&br&&/p&&p&
另外一定要搞明白的一件事是这场比赛是一个预测比赛还是分类比赛，我们能看到最重要预测的是用户的interest_level，分为low，medium，high三级，很显然是个分类问题了。&/p&&p&&br&&/p&&p&
接下来的是就是对数据进行可视化探索了，我因为是初期参赛的，所以自己做了一份可视化方案，从中可以发现很多有趣的分布、outlier等。在这里推荐三份在比赛中分享出来的比较好的EDA：&/p&&ul&&ul&&li&&a href=&/?target=https%3A///sudalairajkumar/two-sigma-connect-rental-listing-inquiries/simple-exploration-notebook-2-connect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Simple Exploration Notebook&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A///poonaml/two-sigma-connect-rental-listing-inquiries/two-sigma-renthop-eda& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Two Sigma RentHop EDA&i class=&icon-external&&&/i&&/a&&/li&&li&&a href=&/?target=https%3A///neviadomski/two-sigma-connect-rental-listing-inquiries/data-exploration-two-sigma-renthop& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Data Exploration Two Sigma Renthop&i class=&icon-external&&&/i&&/a&&/li&&/ul&&/ul&&p&&br&&/p&&p&
一般的比赛初期就会有人共享出他的数据可视化方案，因此如果是新手的话，初期不必浪费时间在这上面，因为从别人的kernel中就能发现很多东西了。&/p&&p&&br&&/p&&p&
然而，需要强调的是，EDA的过程并不是在初期进行后以后都不做了，在以后的不断找新的feature的时候，EDA会给予你灵感。本人的一个关键feature就是在后期重新做了一些可视化后获得的。&/p&&p&&br&&/p&&p&&br&&/p&&h2&&b&提取基础特征+模型训练&/b&&/h2&&p&
有了之前数据探索的基础，我们很快能提取到一些基础的feature，比如数值型feature进行简单的加减乘除，类别型feature用id顺序编码，稀疏特征集用one-hot编码，时间特征生成年、月、日等。将一些基础的特征转换成相应的输入input_X矩阵后，再将label也转换成数值形式：&/p&&div class=&highlight&&&pre&&code class=&language-python&&&span&&/span&&span class=&ow&&in&/span& &span class=&p&&[&/span&&span class=&mi&&2&/span&&span class=&p&&]:&/span& &span class=&n&&target_num_map&/span& &span class=&o&&=&/span& &span class=&p&&{&/span&&span class=&s1&&'high'&/span&&span class=&p&&:&/span&&span class=&mi&&0&/span&&span class=&p&&,&/span& &span class=&s1&&'medium'&/span&&span class=&p&&:&/span&&span class=&mi&&1&/span&&span class=&p&&,&/span& &span class=&s1&&'low'&/span&&span class=&p&&:&/span&&span class=&mi&&2&/span&&span class=&p&&}&/span&
&span class=&ow&&in&/span& &span class=&p&&[&/span&&span class=&mi&&3&/span&&span class=&p&&]:&/span& &span class=&n&&y&/span& &span class=&o&&=&/span& &span class=&n&&data&/span&&span class=&p&&[&/span&&span class=&s2&&&interest_level&&/span&&span class=&p&&]&/span&&span class=&o&&.&/span&&span class=&n&&apply&/span&&span class=&p&&(&/span&&span class=&k&&lambda&/span& &span class=&n&&x&/span&&span class=&p&&:&/span& &span class=&n&&target_num_map&/span&&span class=&p&&[&/span&&span class=&n&&x&/span&&span class=&p&&])&/span&
&/code&&/pre&&/div&&p&
懂机器学习的人都知道，有了这些(X，y)对，我们就可以进行模型训练了。&br&&/p&&p&&br&&/p&&p&
我们用cross-validation（CV）的成绩来判断我们本地的实验结果，也就是将（X，y）训练集拆分成训练和验证集，训练相应分类器对训练集拟合，再在验证集上进行loss的计算来评估模型的好坏。&/p&&p&&br&&/p&&p&
常见的分类器有Logistic Classifier，SVM， NN softmax，Random Forest等。但是在kaggle上用的比较多的还是一些封装好的库，如sklearn里的各种分类器，大名鼎鼎的xgboost，最近崭露头角的lightgbm等。&/p&&p&&br&&/p&&p&
早就听闻xgboost的好用，我就直接在电脑上pip了xgboost，作为我接下来一两个月以来的核心分类器。将原先的（X，y）对中的训练部分输入xgboost进行fit，然后用验证部分predict计算mlogloss。&/p&&p&&br&&/p&&p&
至此为止，比赛初期的第一个模型就已经训练好了。&/p&&p&&br&&/p&&p&&br&&/p&&h2&&b&跑出一个能提交的结果&/b&&/h2&&p&
训练完一个比较好的模型之后，就可以对测试集进行预测了，首先将训练集（X，y）对输入xgboost中重新训练，然后对测试集也像对训练集一样进行特征处理，预测出来的结果按照比赛指定的格式保存到文件（在这里还是建议用pandas），即可提交。&/p&&p&&br&&/p&&p&
第一次提交意味着你正式进入比赛，提交的结果会在Leader Board上显示你当前的排名，当然这个排名只起到参考作用，因为你提交上去的大部分结果kaggle都没有进行评估。&/p&&p&&br&&/p&&p&&br&&/p&&h2&&b&特征工程（FE）&/b&&/h2&&p&
在一系列的初始操作以后，你就要踏上FE的漫漫长征了。本人断断续续在数据清洗、特征提取上做了约两个多月，在比赛最后一段时间模型融合完毕后还在继续地寻找、测试新的特征。后期评论区中magic feature的出现，让每个人的预测结果好了0.01～0.02个点。不得不说，特征工程才是Kaggle比赛获胜的关键所在，因此初学者耗费大量精力在这上面是没错的。而本博文也是重点想讲一下自己发现新特征的一些心历路程。&/p&&p&&br&&/p&&p&
在对一些基础的特征进行生成之后，我开始了漫长地测试特征的长征路，测试的思路我后来发现并不是很好，因为是通过新增加一个或几个feature，如果cv分数上去了，就增加这个feature，如果cv分数没有上去，就舍弃这个feature，也就是相当于贪心验证。这样做的弊处在于，如果之前被舍弃的feature和之后被舍弃的feature联合在一起才会有正面影响，就相当于你错过了两个比较好的feature。因此特征的选择和联合显得非常关键。&/p&&p&&br&&/p&&p&
在比赛阶段，花费大量力气去创建一个feature，到头来却选择放弃这个feature的事情很常见，我后期的特征有很多是新添加的，旧有的一些特征并没有保留。接下来就让我总结一下这场比赛中有哪些“好”的feature，为以后的比赛提供灵感和经验。&/p&&ul&&li&&b&数值型feature的简单加减乘除&/b& &/li&&/ul&&p&&br&&/p&&p&
这个乍一看仿佛没有道理可言，但是事实上却能挖掘出几个feature之间的内在联系，比如这场比赛中提供了bathrooms和bedrooms的数量，以及价格price，合租用户可能会更关心每个卧室的价格，即bathrooms / price，也会关心是不是每个房间都会有一个卫生间bathrooms / price ，这些数值型feature之间通过算数的手段建立了联系，从而挖掘出了feature内部的一些价值，分数也就相应地上去了。&/p&&ul&&li&&b&高势集类别（High Categorical）进行经验贝叶斯转换成数值feature&/b& &/li&&/ul&&p&&br&&/p&&p&
什么是High Categorical的特征呢？一个简单的例子就是邮编，有100个城市就会有好几百个邮编，有些房子坐落在同一个邮编下面。很显然随着邮编的数量增多，如果用简单的one-hot编码显然效果不太好，因此有人就用一些统计学思想（经验贝叶斯）将这些类别数据进行一个map，得到的结果是数值数据。在这场比赛中有人分享了一篇&a href=&/?target=http%3A//helios.mm.di.uoa.gr/%7Erouvas/ssi/sigkdd/sigkdd.vol3.1/barreca.ps& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&paper&i class=&icon-external&&&/i&&/a&里面就提到了具体的算法。详细就不仔细讲了，用了这个encoding之后，的确效果提升了很多。那么这场比赛中哪些数据可以进行这样的encoding呢，只要满足下面几点：1. 会重复，2. 根据相同的值分组会分出超过一定数量（比如100）的组。也就是说building_id, manager_id, street_address, display\_address都能进行这样的encoding，而取舍就由最后的实验来决定了。&/p&&ul&&li&&b&时间特征&/b& &/li&&/ul&&p&&br&&/p&&p&
针对于时间数据来讲，提取年、月、日、星期等可能还是不够的，有另外一些points可以去思考，用户的兴趣跟发布时间的久远是否有关系？可以构造如下的feature来进行测试：&/p&&div class=&highlight&&&pre&&code class=&language-python&&&span&&/span&&span class=&n&&data&/span&&span class=&p&&[&/span&&span class=&s2&&&latest&&/span&&span class=&p&&]&/span& &span class=&o&&=&/span& &span class=&p&&(&/span&&span class=&n&&data&/span&&span class=&p&&[&/span&&span class=&s2&&&created&&/span&&span class=&p&&]&/span&&span class=&o&&-&/span& &span class=&n&&data&/span&&span class=&p&&[&/span&&span class=&s2&&&created&&/span&&span class=&p&&]&/span&&span class=&o&&.&/span&&span class=&n&&min&/span&&span class=&p&&())&/span&
&span class=&n&&data&/span&&span class=&p&&[&/span&&span class=&s2&&&passed&&/span&&span class=&p&&]&/span& &span class=&o&&=&/span& &span class=&p&&(&/span&&span class=&n&&data&/span&&span class=&p&&[&/span&&span class=&s2&&&created&&/span&&span class=&p&&]&/span&&span class=&o&&.&/span&&span class=&n&&max&/span&&span class=&p&&()&/span&&span class=&o&&-&/span& &span class=&n&&data&/span&&span class=&p&&[&/span&&span class=&s2&&&created&&/span&&span class=&p&&])&/span&
&/code&&/pre&&/div&&p&
可以看到latest指的是从有数据开始到该房创建为止一共过去了多少时间，而passed则是该房记录创建为止到最后有记录的时候一共过去了多少时间。&br&&/p&&p&&br&&/p&&p&
另外针对于时间特征还可以用可视化的方式来与其他特征建立联系，比如我们观察listing_id与时间变化到底有怎样的联系，能够绘制出如下的图来：&/p&&figure&&img src=&/v2-62eda3ccf94dd5_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1184& data-rawheight=&517& class=&origin_image zh-lightbox-thumb& width=&1184& data-original=&/v2-62eda3ccf94dd5_r.jpg&&&/figure&&p&
可能简单的相除就能获得很好的结果&/p&&p&&br&&/p&&ul&&li&&b&地理位置特征&/b& &/li&&/ul&&p&&br&&/p&&p&想到地理位置，就会想到聚类，一个简单的方式将每个房子划分到同一块区域中去；除了聚类以外，算出几个中心点坐标，计算曼哈顿距离或者欧式距离可能都会有神奇的效果。&/p&&ul&&li&&b&文本特征&/b& &/li&&/ul&&p&&br&&/p&&p&实话说自己是看中这次比赛中有文本数据才参加的，因此在文本挖掘中做了很大的努力，比如提取关键词、情感分析、word embedding聚类之类都尝试过，但效果都不是很好, 对于文本的特征的建议还是去找出一些除了停用词以外的高频词汇，寻找与这个房屋分类问题的具体联系。&/p&&ul&&li&&b&图片特征&/b& &/li&&/ul&&p&&br&&/p&&p&除了最后爆料出来的magic feature(后文会提到)以外，我只用了一个房子有几个照片这个信息。讨论区中都说对于图片特征用CNN提取、简单特征提取之类的效果都不是很好。&/p&&ul&&li&&b&稀疏特征集&/b& &/li&&/ul&&p&&br&&/p&&p&其实就相当于一系列标签，不同标签的个数也是挺多的，本次比赛我只是简单地采用了counterEncoding的方式进行one-hot编码。值得一提的是，有些标签是可以合并的，比如cat allowed 和 dog allowed可以合并成为 pet allowed，我在这场比赛中手工地合并了一些feature数据，最终结果略微有所提升。&/p&&ul&&li&&b&特征重要程度（feature importance）&/b& &/li&&/ul&&p&&br&&/p&&p&在树结构的分类器比如randomforest、xgboost中最后能够对每个特征在分类上面的重要程度进行一个评估。这时候如果已经选定了一些feature进行训练了之后，查看feature importance的反馈是非常重要的，比如本场比赛制胜的关键是运用manager_id这个feature，而它的feature importance反馈结果也是非常高。通过对重要特征的重新再提取特征，能够发现很多有意思的新特征，这才是用FE打好一场比赛的关键所在。&/p&&p&&br&&/p&&p&
下面列出了一些比赛结束后获胜者分享的idea，这大概是我这场比赛中获益最大的一块地方了。&/p&&ul&&li&Top #1 &a href=&/?target=https%3A///c/two-sigma-connect-rental-listing-inquiries/discussion/32163& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&solution&i class=&icon-external&&&/i&&/a& @plantsgo&br&&/li&&/ul&&p&&br&&/p&&p&主要是针对manager_id生成了非常多的feature。如根据不同时间出现的manager_id判断一个manager是否活跃（manager与time进行group，manager掌管有几个不同的房子（manager与building_id进行group）、平均每天处理多少房子（比值）、活动范围（同个manager掌管的房子的最大最小经纬度group），经理的开价程度（选择bedroom和bathroom作为房子型号指标，把相同房型的均价来衡量经理对于所有房子的开价程度），对经纬度进行聚类再计算每个区域中有多少个manager竞争、一个manager同时经营几个区域、在同个区域中manager的开价水平等。从Top 1选手分享的代码来看，其对于manager的各种处理的确是让人大开眼界。&/p&&ul&&li&Top #2 &a href=&/?target=https%3A///c/two-sigma-connect-rental-listing-inquiries/discussion/32148& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&solution&i class=&icon-external&&&/i&&/a& @Faron&br&&/li&&/ul&&p&&br&&/p&&p&从更为经验老道的选手给出了一些特征提取建议。其中有一类被作者称为&Likelihood Features&，他对High Cardinal Categorical的特征用了一些额外的条件概率来计算其似然值，如p(y|manager_id, bathrooms)等，并且进行了点积操作来计算出一个合适的encoding值（类似于先前讨论区中出现的manager_skills，同时为了防止过拟合对这些似然估计出来的feature创建了2层嵌套。另外还有一种对我启发比较大的feature是对description出现频率最高的15k单词进行一个one-hot深度xgboost训练，将这个训练出来模型的预测结果作为description的encoding。&/p&&ul&&li&Top #3 &a href=&/?target=https%3A///c/two-sigma-connect-rental-listing-inquiries/discussion/32123& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&solution&i class=&icon-external&&&/i&&/a& @Little Boat&br&&/li&&/ul&&p&&br&&/p&&p&其FE的第一部分给出了group的一套方案，类似于我自己FE中的group方法。第二部分使用了magic feature相关的feature，方法与第一部分类似&/p&&/p&&ul&&li&Top #9 &a href=&/?target=https%3A///c/two-sigma-connect-rental-listing-inquiries/discussion/32146& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&solution&i class=&icon-external&&&/i&&/a& @James Trotman&br&&/li&&/ul&&p&&br&&/p&&p&没有细说，但是列出了一个feature name的详单，希望以后没有idea的时候能从中找到一些insight&/p&&ul&&li&Top #11 &a href=&/?target=https%3A///c/two-sigma-connect-rental-listing-inquiries/discussion/32116& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&solution&i class=&icon-external&&&/i&&/a& @KazAnova&br&&/li&&/ul&&p&&br&&/p&&p&KazAnova无疑是这场比赛中的明星选手，他分享了对初学者模型融合比较关键的Stack-Net，以及对最后榜单变动起到决定性作用的magic feature。几乎所有在榜上的Kagglers都要向他致敬。同时在FE这一块，他注意到了数据集中存在很多类似的数据（仅仅在价格上有区别），因此他建立了不同的group，并在这些group间创建了很多aggregated features，比如最高的price，平均price等&/p&&ul&&li&Top #12 &a href=&/?target=https%3A///c/two-sigma-connect-rental-listing-inquiries/discussion/32118& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&solution&i class=&icon-external&&&/i&&/a& @b.e.s&br&&/li&&/ul&&p&&br&&/p&&p&用到了基于高势集类别数据的group的一些统计量。&/p&&ul&&li&Top #13 &a href=&/?target=https%3A///c/two-sigma-connect-rental-listing-inquiries/discussion/32156& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&solution&i class=&icon-external&&&/i&&/a& @qianqian&br&&/li&&/ul&&p&&br&&/p&&p&也是用了很多基于manager_id group的统计feature。&/p&&p&&br&&/p&&p&&br&&/p&&h2&&b&模型调参（Grid Search）&/b&&/h2&&p&
模型调参的话，能够在FE完之后为你提升0.001～0.002分数，因此如何为我们的分类器，比如xgboost选择好正确的参数是非常关键的。&/p&&p&&br&&/p&&p&
比较常用的是进行Grid Search，从你的输入组合中暴力地搜索cv结果最优的组合。我一般会设定一个learning rate，然后尝试不同的参数组合，取最优值，因为训search的代价比较高，最好选择一定范围，比如你事先cv的时候知道estimater会在700～1000的范围内，那就不要search这个范围以外的值了。&/p&&p&&br&&/p&&p&&br&&/p&&h2&&b&模型融合&/b&&/h2&&p&
如果你没有idea了的话，就模型融合吧！模型融合是能够快速提高比赛成绩的捷径，现在的比赛几乎没有人不用到这个技巧，通常获胜者会对很多很多模型进行融合，并且会选择不同的模型融合的方式。这里有一篇非常好的模型融合解析&a href=&/?target=https%3A///kaggle-ensembling-guide/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&博文&i class=&icon-external&&&/i&&/a&，相信每个看过它的人都会对模型融合有一个清楚的了解&/p&&p&&br&&/p&&p&
本次比赛中我使用了两种模型融合方式，一种是Averaging，一种是Stacking。&/p&&p&&br&&/p&&p&
先来说说Stacking，因为这场比赛一名贡献比较大的选手分享了一个叫StackNet的库，作为新手我就直接用了。首先我用我的xgboost cv集交叉预测出结果作为feature的一部分放到train data中，再对test data进行预测的结果作为feature的一部分放到test data中，再在第二层上选择了Logistic Classifer，GradientBoostingClassifer，AdaBoostClassifer，NNSoft-maxClassfier，RandomForestClassifer等进行交叉预测，第三层选取了一个randomForest作为最后的结果训练和预测。Stacking主要增多了模型的diversity，使我的成绩上升了至少0.003的量级。&/p&&p&&br&&/p&&p&
然后是Averaging，之前提到过Stacking需要交叉预测，我就选取了10组随机种子分别对训练集进行10-kfold交叉预测取平均，以及每个flod训练预测的时候我都对我的xgboost选取5个随机种子取平均。也就是说，在第一层Stacking的CV集交叉预测时我总共训练了500个模型进行平均。分数的提升大约在0.002左右。&/p&&p&&br&&/p&&p&
直到比赛结束看了排名靠前的选手的模型融合后，才发现自己对于模型融合只是做了一点微小的工作，提升空间还非常大。详情可以看FE部分分享的solution链接。&/p&&p&&b&Tricks&/b&&/p&&p&&br&&/p&&p&
在这场比赛中有一名在一开始的两个月一直遥遥领先的选手爆出这个比赛有个magic feature，大家陷入了疯狂找这个feature的过程中，直到那位分享了StackNet的选手分享出了这个magic feature：80G图片数据每个文件夹的创建时间，于是榜单大变，我一觉醒来后发现自己掉了很多就发现到了不对劲，便迅速加入到这个magic feature疯狂屠榜的大军中，从这里可以看见，一个信息量巨大的feature如果被发现的话，对比赛成绩会带来多么大的影响。&/p&&p&&br&&/p&&p&
有一些group的feature能够起到非常重要的作用，详细见我比赛后发表的一个小样例&a href=&/?target=https%3A///c/two-sigma-connect-rental-listing-inquiries/discussion/47& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&discussion topic&i class=&icon-external&&&/i&&/a&。但是一定要防止过拟合。&/p&&p&&br&&/p&&p&&br&&/p&&h2&&b&总结&/b&&/h2&&p&
这篇博文还有一些关键的点没有涉及到，比如数据的清洗，有些数据在记录中似乎是不同的，但是意思是一样的，就应该归位同一个类别，还有就是清除一些outlier等。&/p&&p&&br&&/p&&p&
对这个比赛的top solution总结得还是没到位，基本没有coding实现他们的idea过。由于课程压力比较大，等到时候空了的时候再好好整理。&/p&&p&&br&&/p&&p&
另外还有就是需要持之以恒地打这个比赛，因为你以为你idea都没有了，模型调参、融合完毕了的时候，可能大家都找出了另一个&magic feature&，轻松地把你挤出奖牌的范围内了。&/p&&p&&br&&/p&&p&最后，Kaggle is fun!&br&&/p&&p&&br&&/p&&p&&br&&/p&&p&&i&本文转载请务必通知作者！&/i&&/p&
这里是 --& 我的比赛代码已经放到github --& [更新]
在这篇博客开始之前，我必须感谢导师给我提供服务器资源，@学长从他自身经验出发耐心地为我解答一些困惑，素未谋面的@学长…
作为不太了解这方面但又想帮帮你的咸鱼，只能帮你到这了。。。。&br&人工智能链接: &a href=&///?target=http%3A///s/1bV2aXS& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1bV2aXS&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a& 密码: 7ydc&br&机器学习链接: &a href=&///?target=http%3A///s/1bpy6wI7& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1bpy6wI&/span&&span class=&invisible&&7&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: yiwj&br&深度学习链接: &a href=&///?target=http%3A///s/1kVp2B7T& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1kVp2B7&/span&&span class=&invisible&&T&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: 8xey&br&算法链接: &a href=&///?target=http%3A///s/1pLkAFzH& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1pLkAFz&/span&&span class=&invisible&&H&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: ewj2&br&自然语言处理（NLP）链接: &a href=&///?target=http%3A///s/1ckvmuq& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1ckvmuq&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a& 密码: te6q&br&推荐系统链接: &a href=&///?target=http%3A///s/1dEWHXzb& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1dEWHXz&/span&&span class=&invisible&&b&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: 3ux1&br&斯坦福NLP课程链接: &a href=&///?target=http%3A///s/1hsqU8cc& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1hsqU8c&/span&&span class=&invisible&&c&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: px2c&br&神经网络、深度学习方向链接: &a href=&///?target=http%3A///s/1miPsvkG& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1miPsvk&/span&&span class=&invisible&&G&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: npvp&br&大规模人脸标注数据集链接: &a href=&///?target=http%3A///s/1boBhqfP& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1boBhqf&/span&&span class=&invisible&&P&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: 4nt5&br&数据集链接:&a href=&///?target=http%3A///s/1c2w2vZy& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1c2w2vZ&/span&&span class=&invisible&&y&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码:frmf&br&TensorFlow教程链接: &a href=&///?target=http%3A///s/1c11BLCW& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1c11BLC&/span&&span class=&invisible&&W&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: gk45&br&模型链接: &a href=&///?target=http%3A///s/1jHJa5Zg& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1jHJa5Z&/span&&span class=&invisible&&g&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: 9tgc&br&数据分析链接: &a href=&///?target=http%3A///s/1eSP43J0& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1eSP43J&/span&&span class=&invisible&&0&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: dfp9&br&Python入门课程链接: &a href=&///?target=http%3A///s/1c1TvZYK& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1c1TvZY&/span&&span class=&invisible&&K&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: 1zb7&br&&br&论文合集链接: &a href=&///?target=http%3A///s/1mieBjcc& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1mieBjc&/span&&span class=&invisible&&c&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: 74f2&br&计算机视觉链接: &a href=&///?target=http%3A///s/1qXJ4o4s& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1qXJ4o4&/span&&span class=&invisible&&s&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: 7kta&br&编程教程链接: &a href=&///?target=http%3A///s/1kUAQXoj& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1kUAQXo&/span&&span class=&invisible&&j&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: x35a&br&CNCC2016演讲链接: &a href=&///?target=http%3A///s/1o8qIqZg& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/s/1o8qIqZ&/span&&span class=&invisible&&g&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& 密码: dv5s&br&备份：&a href=&///?target=http%3A///t/I3Q7biaUVZja& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/t/I3Q7biaU&/span&&span class=&invisible&&VZja&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&
作为不太了解这方面但又想帮帮你的咸鱼，只能帮你到这了。。。。人工智能链接:
密码: 7ydc 机器学习链接:
密码: yiwj 深度学习链接:
密码: 8xey 算法链接:
密码: ew…
&figure&&img src=&/v2-32c6fbf96a4d839fabb5_b.jpg& data-rawwidth=&1216& data-rawheight=&662& class=&origin_image zh-lightbox-thumb& width=&1216& data-original=&/v2-32c6fbf96a4d839fabb5_r.jpg&&&/figure&&p&五天前，我发了&a href=&/p/& class=&internal&&一篇专栏文章表明自己要翻译一下吴恩达CS229的课程讲义资料&/a&，然后建立了一个 &a href=&/?target=https%3A///Kivy-CN/CS229-CN/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&专门用于这个翻译系列的github repo&i class=&icon-external&&&/i&&/a&&/p&&p&五天过去了，我这几天身体状况稍微好了点，吃了些止疼药，行动自在了不少。&/p&&p&然后&a href=&/people/6d1a164af570b03f27b5fe& data-hash=&6d1a164af570b03f27b5fe& class=&member_mention& data-title=&@飞龙& data-editable=&true& data-hovercard=&p$b$6d1a164af570b03f27b5fe&&@飞龙&/a&
跟我说：一共130页左右，第一个note占30页。这样我就已经翻译了大概1/5-1/4的样子。&/p&&p&更好的一个消息是&a href=&/people/0f36417dbe6abbccd2dc503b81ee2b21& data-hash=&0f36417dbe6abbccd2dc503b81ee2b21& class=&member_mention& data-editable=&true& data-title=&@李元气& data-hovercard=&p$b$0f36417dbe6abbccd2dc503b81ee2b21&&@李元气&/a&参与了进来，能够帮处理下 latex 公式的问题。这简直太赞了。&/p&&p&昨天我状况不佳，只翻译了一部分的杜克大学STA663的讲义：&a href=&/p/& class=&internal&&第二章c&/a&
&a href=&/p/& class=&internal&&第二章b&/a& &a href=&/p/& class=&internal&&第二章a&/a&&/p&&p&然后还发了几篇一时脑热来怼人的：比如&a href=&/p/& class=&internal&&这个怼人&/a& 和 &a href=&/p/& class=&internal&&这个怼同行&/a&&/p&&p&痛惜自己浪费了好多时间，真不如好好来休息或者修改代码、解决bug、编辑论文或者翻译点资料了。&/p&&br&&br&&a href=&/?target=https%3A///Kivy-CN/CS229-CN/blob/master/%25E4%25B8%25AD%25E6%E7%25BF%25BB%25E8%25AF%%25B8%25AD/notes/cs229-notes2.docx& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&第二章的讲义 note2 的翻译原稿在这里可以下载&i class=&icon-external&&&/i&&/a&。&p&此外还新增了 Markdown文档：&/p&&p&&a href=&/?target=https%3A///Kivy-CN/CS229-CN/blob/master/%25E4%25B8%25AD%25E6%E7%25BF%25BB%25E8%25AF%%25B8%25AD/notes/cs229-notes2.md& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&第二章的&i class=&icon-external&&&/i&&/a&&/p&&p&&a href=&/?target=https%3A///Kivy-CN/CS229-CN/blob/master/%25E4%25B8%25AD%25E6%E7%25BF%25BB%25E8%25AF%%25B8%25AD/notes/cs229-notes1.md& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&第一章的&i class=&icon-external&&&/i&&/a&&br&&/p&&p&我看了一下，这一章有14页，内容也不太难，不过我的表述很差，这是受限于我的翻译和背景知识两方面都很低下的水平，所以大家发现错误请尽情鞭挞，我一定及时改正！&/p&&p&最后安利一首歌：&a href=&/?target=http%3A///%23/m/song%3Fid%3D& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Dollar Bill Blues&i class=&icon-external&&&/i&&/a&&/p&
五天前，我发了，然后建立了一个五天过去了，我这几天身体状况稍微好了点，吃了些止疼药，行动自在了不少。然后跟我说：一共130页左右，第一个note占30页…
&p&之前一直有朋友叫我列一个数据科学的书单，说实话这件事情我是犹豫了很久的。有两个原因，其一是因为自己读书太少才疏学浅，其二我觉得基于我个人观点认为“好”的书其实可能对于很多人是不一定合适的。&/p&&p&不过，明天正好是世界读书日，所以这里从一个（在读的统计PhD学生?即将去旧金山的某Startup进行Data Science暑期实习的准数据科学家）的角度，给大家列一个书单吧，里面有我读过的书，也有我想读的书。&/p&&p&我的原则是尽可能推一些新书，和我自己所认为的“好书”。不过我觉得，我介绍的书当中可能有不少的书在之前的回答里都有提到了，那也是难免的。毕竟很多好书都是得到了大家的一致认可的。&/p&&p&对于读过的书我可能会给一点点小短评，对于我想读但是没读过的书我就不发表什么太多看法了。这个书单，算是对自己过去阅读的总结，也算是未来给自己所提的要求。如果对其他人有那么一点点用，那也是极好的。&/p&&p&------------4.23 Update--------------------------------&/p&&p&这里想澄清一个误会，有些知友以为我这些书都看完了，怎么可能嘛2333。里面有些书是我读过的，有些书是我正在读的，有些书是我打算看的（todo list）。另外这个书单里面有些书，我认为是值得从头到尾看完的，有些书是适合看一部分的，还有些书是你在做项目，解决一个特定问题的时候才需要去翻查的。这些说明我会慢慢补上（施工ing）。&/p&&p&&br&&/p&&p&还有人问我怎么找到这些书的电子版的。有个论坛，叫经管之家（原人大经济论坛）我觉得不少人应该都听说过吧，我在里面混了8，9年了。&/p&&p&--------------------------------------------&/p&&p&第一部分：数据科学家核心技能(&a href=&///?target=http%3A///profiles/blogs/data-scientist-core-skills& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Data Scientist Core Skills&i class=&icon-external&&&/i&&/a&)&/p&&p&1. 概览（Overview）：&/p&&p&The Data Science Handbook: Advice and Insights from 25 Amazing Data Scientists （看完了）&/p&&p&业内老司机给数据科学新人的一些建议&/p&&figure&&img src=&/v2-06f61afb9fbcd875fd8d6ec2e0e94f11_b.jpg& data-rawwidth=&331& data-rawheight=&499& class=&content_image& width=&331&&&/figure&&p&Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking （看完了）&/p&&figure&&img src=&/v2-fbcc4fdb1f0ec2fec947a8c_b.jpg& data-rawwidth=&381& data-rawheight=&499& class=&content_image& width=&381&&&/figure&&p&Doing Data Science: Straight Talk from the Frontline（看完了）&/p&&figure&&img src=&/v2-626cae9b27a5b613c2a8_b.jpg& data-rawwidth=&333& data-rawheight=&499& class=&content_image& width=&333&&&/figure&&p&&br&&/p&&p&2. 数学(Maths)：&/p&&p&多变量微积分(multivariate calculus)：&/p&&p&我是觉得看MIT这门课的前两个Chapter就OK了。&/p&&p&&a href=&///?target=https%3A//ocw.mit.edu/courses/mathematics/18-02sc-multivariable-calculus-fall-2010/index.htm& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&ocw.mit.edu/courses/mat&/span&&span class=&invisible&&hematics/18-02sc-multivariable-calculus-fall-2010/index.htm&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&线性代数(Linear Algebra)：&/p&&p&这本书对应课程绝对良心：&/p&&p&&u&&a href=&///?target=https%3A//ocw.mit.edu/courses/mathematics/18-06sc-linear-algebra-fall-2011/index.htm& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&ocw.mit.edu/courses/mat&/span&&span class=&invisible&&hematics/18-06sc-linear-algebra-fall-2011/index.htm&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/u&&/p&&figure&&img src=&/v2-6dd6057063eaac2381c1_b.jpg& data-rawwidth=&376& data-rawheight=&474& class=&content_image& width=&376&&&/figure&&p&&br&&/p&&p&3. 概率论与统计(Probability And Statistics)：&/p&&p&Introduction to Probability, Statistics, and Random Processes（还没看）&/p&&p&一本手把手教你概率论的书，相应学习网站上书和视频都有。&/p&&p&&u&&a href=&///?target=https%3A///& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/u&&/p&&figure&&img src=&/v2-50bda82b370e05f7ee69_b.jpg& data-rawwidth=&384& data-rawheight=&499& class=&content_image& width=&384&&&/figure&&p&&br&&/p&&p&OpenIntro Statistics（看完了）&/p&&p&至今见到最好的一本统计学入门书，同样相应学习网站上书和视频都有。&/p&&p&&a href=&///?target=https%3A//www.openintro.org/stat/textbook.php& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&OpenIntro&i class=&icon-external&&&/i&&/a&&/p&&figure&&img src=&/v2-2dad0c6dfffd43e9a7ee9f2_b.jpg& data-rawwidth=&400& data-rawheight=&500& class=&content_image& width=&400&&&/figure&&p&Statistical Inference（看完了）&/p&&p&不少美国大学统计系研究生第一年的教材，推荐给想系统学习数理统计的同学。&/p&&figure&&img src=&/v2-414be4bd5765_b.jpg& data-rawwidth=&333& data-rawheight=&499& class=&content_image& width=&333&&&/figure&&p&Applied Linear Statistical Models（看了一半）&/p&&p&我觉得是把线性模型讲得很好的一本书&/p&&p&&br&&/p&&figure&&img src=&/v2-9d990717bee529be0e81e9_b.jpg& data-rawwidth=&400& data-rawheight=&500& class=&content_image& width=&400&&&/figure&&p&&br&&/p&&p&An Introduction to Generalized Linear Models（看完了）&/p&&p&广义线性模型入门简介&/p&&figure&&img src=&/v2-2fe742ecd125baf78ace2b4fb2dc12c4_b.jpg& data-rawwidth=&321& data-rawheight=&499& class=&content_image& width=&321&&&/figure&&p&&br&&/p&&p&All of Statistics: A Concise Course in Statistical Inference（正在看）&/p&&p&注意，我觉得这本书是给的统计底子很好的人复习用的，不适合自学。&/p&&figure&&img src=&/v2-4c26ce3abcb6c5e3ffbabee27ece36f2_b.jpg& data-rawwidth=&332& data-rawheight=&499& class=&content_image& width=&332&&&/figure&&p&&br&&/p&&p&Computer Age Statistical Inference: Algorithms, Evidence, and Data Science （正在看）&/p&&p&Efron和Hastie两位大师通过这本书给了大数据时代的统计学一个非常现代和全面的介绍。&/p&&figure&&img src=&/v2-5ff8df8a25b4d1637e4e_b.jpg& data-rawwidth=&330& data-rawheight=&499& class=&content_image& width=&330&&&/figure&&p&&br&&/p&&p&Statistics in a Nutshell: A Desktop Quick Reference（翻查用）&/p&&p&案头的统计学速查手册&/p&&figure&&img src=&/v2-eda8df12e7ca0c46c59ea8cb_b.jpg& data-rawwidth=&333& data-rawheight=&499& class=&content_image& width=&333&&&/figure&&p&&br&&/p&&p&贝叶斯统计(Bayesian Statistics)&/p&&p&Bayes' Rule: A Tutorial Introduction to Bayesian Analysis（还没看）&/p&&p&贝叶斯统计101&/p&&figure&&img src=&/v2-aeaf1ce258af6e6049eaf_b.jpg& data-rawwidth=&333& data-rawheight=&499& class=&content_image& width=&333&&&/figure&&p&&br&&/p&&p&Think Bayes: Bayesian Statistics in Python（还没看）&/p&&p&简介怎么用Python做贝叶斯统计&/p&&p&这里可以免费下载：&a href=&///?target=http%3A///thinkbayes/thinkbayes.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/think&/span&&span class=&invisible&&bayes/thinkbayes.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&figure&&img src=&/v2-22e3de0c16d8b2edb0fa3_b.jpg& data-rawwidth=&381& data-rawheight=&499& class=&content_image& width=&381&&&/figure&&p&&br&&/p&&p&Bayesian Methods for Hackers（还没看）&/p&&p&更加深入地介绍怎么用Python做贝叶斯统计。&/p&&p&在线版本：&a href=&///?target=https%3A///CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers&i class=&icon-external&&&/i&&/a&&/p&&figure&&img src=&/v2-369f0ebeb979fe33ebfbea_b.jpg& data-rawwidth=&383& data-rawheight=&499& class=&content_image& width=&383&&&/figure&&p&Practical Statistics for Data Scientists: 50 Essential Concepts（读完了）&/p&&p&我在实习期间抽空看完的一本书，这本书应该算是填平课堂的统计学和工业界数据科学的一本很好的参考指南。写得比较简洁但是直击要点，而且给出了很多reference。&/p&&p&这本书的github：&a href=&///?target=https%3A///andrewgbruce/statistics-for-data-scientists& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&andrewgbruce/statistics-for-data-scientists&i class=&icon-external&&&/i&&/a&&/p&&p&这本书的Amazon 链接：&a href=&///?target=https%3A///Practical-Statistics-Data-Scientists-Essential/dp//ref%3Dsr_1_1%3Fs%3Dbooks%26ie%3DUTF8%26qid%3D%26sr%3D1-1%26keywords%3Dpractical%2Bstatistics%2Bfor%2Bdata%2Bscience& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Practical Statistics for Data Scientists: 50 Essential Concepts (2): Peter Bruce, Andrew Bruce: Books&i class=&icon-external&&&/i&&/a&&/p&&figure&&img src=&/v2-c84aaedd4b36ce66d863_b.jpg& data-rawwidth=&381& data-rawheight=&499& class=&content_image& width=&381&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&4. 机器学习(Machine Learning)&br&我觉得机器学习不能沉溺于理论，要尽快开始动手把玩一些实际数据集来加深对算法的理解。所以我打算推荐一些Hands-on（手把手）的书。&br&An Introduction to Statistical Learning: with Applications in R（看完了）&/p&&p&通过R讲解算法的统计学习入门书，估计被推荐烂了（笑）。可以在这本书的网站上找到这本书的pdf和数据集。&/p&&p&&u&&a href=&///?target=http%3A//www-bcf.usc.edu/%7Egareth/ISL/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&www-bcf.usc.edu/~gareth&/span&&span class=&invisible&&/ISL/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/u&&/p&&p&相关课程&/p&&p&&u&&a href=&///?target=https%3A//lagunita.stanford.edu/courses/HumanitiesSciences/StatLearning/Winter2016/about& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&lagunita.stanford.edu/c&/span&&span class=&invisible&&ourses/HumanitiesSciences/StatLearning/Winter2016/about&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/u&&/p&&p&&br&&/p&&figure&&img src=&/v2-caa18e69f6c6d13b6786fea_b.jpg& data-rawwidth=&332& data-rawheight=&499& class=&content_image& width=&332&&&/figure&&p&&br&&/p&&p&Applied Predictive Modeling（看完了）&/p&&p&黄皮书，没啥好多说的。准备面试和工作的时候必读。&/p&&figure&&img src=&/7a0593ebc0bdb7ea8dbc771ef84d6a4d_b.jpg& data-rawwidth=&315& data-rawheight=&499& class=&content_image& width=&315&&&/figure&&p&&br&&/p&&p&Python Machine Learning（基本上看完了）&/p&&p&手把手教你用sklearn做机器学习，同样是工作必备。&/p&&figure&&img src=&/ccb44ae1dabb82ced3a2f7_b.jpg& data-rawwidth=&406& data-rawheight=&500& class=&content_image& width=&406&&&/figure&&p&&br&&/p&&p&Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies（看了一半）&/p&&p&我觉得这本书特别适合我这种脑子不太好的人，因为他会把机器学习算法拆开，结合案例，一步一步地给你讲。&/p&&figure&&img src=&/v2-e0f9f7e4f2_b.jpg& data-rawwidth=&389& data-rawheight=&499& class=&content_image& width=&389&&&/figure&&p&&br&&/p&&p&Real-World Machine Learning（看完了）&/p&&p&告诉你工业界的人怎么用Machine Learning解决实际问题的书。建议所有Data Scientist在实习前和全职工作开始前都读一下。&/p&&figure&&img src=&/v2-efbd3bdd48b226_b.jpg& data-rawwidth=&398& data-rawheight=&499& class=&content_image& width=&398&&&/figure&&p&&br&&/p&&p&Learning From Data（看完了）&/p&&p&这本书讲清楚了很多机器学习书中不怎么提到的机器学习理论，比如VC Dimension这种东西。Caltech有公开课，吐血推荐：&/p&&p&&u&&a href=&///?target=https%3A//work.caltech.edu/telecourse.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&work.caltech.edu/teleco&/span&&span class=&invisible&&urse.html&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/u&&/p&&figure&&img src=&/v2-ffbe70b06e977_b.jpg& data-rawwidth=&321& data-rawheight=&499& class=&content_image& width=&321&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition（看了一半）&/p&&p&大名鼎鼎的ESL，读起来比较累（我太渣），我觉得适合翻查和摘抄。&/p&&p&&a href=&///?target=https%3A//statweb.stanford.edu/%7Etibs/ElemStatLearn/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&statweb.stanford.edu/~t&/span&&span class=&invisible&&ibs/ElemStatLearn/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&figure&&img src=&/v2-2f009d4cff98dbb168afd688b9e42559_b.jpg& data-rawwidth=&332& data-rawheight=&499& class=&content_image& width=&332&&&/figure&&p&&br&&/p&&p&Pattern Recognition and Machine Learning（正在看）&/p&&p&同样大名鼎鼎的PRML，我个人觉得比ESL好读不少。&/p&&figure&&img src=&/v2-5b0ce5eb5ad4fe313afce_b.jpg& data-rawwidth=&370& data-rawheight=&499& class=&content_image& width=&370&&&/figure&&p&&br&&/p&&p&5. 数据挖掘(Data Mining)&/p&&p&数据挖掘中不少东西其实和机器学习是重合的，至于这两个东西有什么区别，可以看看这个回答：&u&&a href=&///?target=https%3A///questions/5026/what-is-the-difference-between-data-mining-statistics-machine-learning-and-ai& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&&/span&&span class=&invisible&&/questions/5026/what-is-the-difference-between-data-mining-statistics-machine-learning-and-ai&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/u&&/p&&p&Principles of Data Mining（还没看）&/p&&p&非常基本的数据挖掘入门书，讲了不少Association Rule的东西&/p&&figure&&img src=&/v2-e988a90ba6aa1ea282c53f9e18e920e7_b.jpg& data-rawwidth=&329& data-rawheight=&499& class=&content_image& width=&329&&&/figure&&p&&br&&/p&&p&Introduction to Data Mining（正在看）&/p&&p&更加深入讲数据挖掘的书，干货很多&/p&&figure&&img src=&/v2-7ecdccebd3fdde016be7b_b.jpg& data-rawwidth=&394& data-rawheight=&499& class=&content_image& width=&394&&&/figure&&p&&br&&/p&&p&Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management（还没看）&/p&&p&通过实例讲怎么通过数据挖掘赚顾客钱做生意。&/p&&figure&&img src=&/v2-a09ba85b23c52e5f89588_b.jpg& data-rawwidth=&398& data-rawheight=&499& class=&content_image& width=&398&&&/figure&&p&&br&&/p&&p&6. SQL：&br&SQL怎么入门，网上到处都是教程。书的话我只是觉得这一本Cookbook最好。因为他把很多SQL query里的陷阱都提到了，而且每道题给出了市面上所有流行数据库（MySQL，DB2，Oracle，SQL Server，Postgresql）的Query代码&/p&&p&SQL Cookbook: Query Solutions and Techniques for Database Developers （翻查用）&/p&&figure&&img src=&/v2-db550a152d078ab1c2a04ee_b.jpg& data-rawwidth=&379& data-rawheight=&499& class=&content_image& width=&379&&&/figure&&p&&br&&/p&&p&7. R:&/p&&p&R in Action（正在看）&/p&&p&有名的R语言实践&/p&&figure&&img src=&/v2-cbcbfaceb86f5b5db86e8b8_b.jpg& data-rawwidth=&398& data-rawheight=&499& class=&content_image& width=&398&&&/figure&&p&下面是R教主Hadley Wickham的三本书，没啥好太多说的，读就是了：&/p&&p&R for Data Science（正在看）&/p&&p&在线版本：&/p&&p&&a href=&///?target=http%3A//r4ds.had.co.nz/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&R for Data Science&i class=&icon-external&&&/i&&/a&&/p&&figure&&img src=&/v2-45c150ae1f6a310dbf94a0_b.jpg& data-rawwidth=&333& data-rawheight=&499& class=&content_image& width=&333&&&/figure&&p&R Packages（还没看）&/p&&p&&a href=&///?target=http%3A//r-pkgs.had.co.nz/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Welcome · R packages&i class=&icon-external&&&/i&&/a&&/p&&figure&&img src=&/v2-8aa3a6d849a7_b.jpg& data-rawwidth=&381& data-rawheight=&499& class=&content_image& width=&381&&&/figure&&p&Advanced R（还没看）&/p&&p&在线版本：&a href=&///?target=http%3A//adv-r.had.co.nz/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Welcome · Advanced R.&i class=&icon-external&&&/i&&/a&&/p&&figure&&img src=&/v2-a093bedf5a663f97bd62047_b.jpg& data-rawwidth=&331& data-rawheight=&499& class=&content_image& width=&331&&&/figure&&p&&br&&/p&&p&8. Python:&/p&&p&因为不是软件工程师，我Python水平也不高。推荐两本我用来入门和准备继续进一步提高看的书吧。&/p&&p&Think Python（看完了）&/p&&p&这本书我拿来入门的&/p&&figure&&img src=&/v2-bc2c685a6bf_b.jpg& data-rawwidth=&381& data-rawheight=&499& class=&content_image& width=&381&&&/figure&&p&Fluent Python（还没看）&/p&&p&打算用来Python进阶的&/p&&figure&&img src=&/v2-be545ab320b_b.jpg& data-rawwidth=&381& data-rawheight=&499& class=&content_image& width=&381&&&/figure&&p&Python for Probability, Statistics, and Machine Learning（还没看）&/p&&p&我打算用来复习概率论和统计学的书（with Python）&/p&&figure&&img src=&/v2-db93ad71cd1bfc312ac6_b.jpg& data-rawwidth=&343& data-rawheight=&499& class=&content_image& width=&343&&&/figure&&p&&br&&/p&&p&Python Data Science Handbook（翻查用）&/p&&p&一本非常全面的通过Python解决数据科学问题的工作手册。作者给出了这本书全部的Jupyter Notebook：&/p&&p&&a href=&///?target=https%3A///jakevdp/PythonDataScienceHandbook& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&jakevdp/PythonDataScienceHandbook&i class=&icon-external&&&/i&&/a&&/p&&figure&&img src=&/v2-9ee8cfdb4f10c1da56bbc2_b.jpg& data-rawwidth=&381& data-rawheight=&499& class=&content_image& width=&381&&&/figure&&p&&br&&/p&&p&9. 数据科学家面试 (Data Scientist Interview)&/p&&p&Data Science Interviews Exposed（看完了）&/p&&p&几个在美国的中国人数据科学家写的面试准备书。基本给出了所有数据科学面试涵盖的知识点概述，数据科学家面试流程和注意事项，干货满满。仔细读完这本书，数据科学家面试是怎么个一回事儿，基本上你就心中有数了。&/p&&figure&&img src=&/v2-d356dd6a84e2ef3bb0db06f_b.jpg& data-rawwidth=&333& data-rawheight=&499& class=&content_image& width=&333&&&/figure&&p&Cracking the PM Interview: How to Land a Product Manager Job in Technology（读完了）&/p&&p&在美国，不少数据科学家在公司做的很多工作和产品相关，甚至不少数据科学家被当成半个产品经理用，所以这本产品经理的面试准备书对于数据科学家的面试也很有借鉴意义的。&/p&&figure&&img src=&/v2-6f4d6f9c93da4f824032cb_b.jpg& data-rawwidth=&333& data-rawheight=&499& class=&content_image& width=&333&&&/figure&&p&10. 算法（Algorithm）&/p&&p&数据科学家逃不掉算法，虽然要求不像软件工程师那么高。因为我是Python死忠，所以这里推荐的所有算法书中的算法实现都有用到Python。&/p&&p&Grokking Algorithms: An illustrated guide for programmers and other curious people（看了一半）&/p&&p&非常直观的一本算法入门书中的入门书，这本书作者不仅仅是软件工程师，他还是一个绘本画师，里面所有的插图都是他自己亲手画的，非常的萌。&/p&&figure&&img src=&/v2-aa2ffcec421aee79e2f7843ceec19d48_b.jpg& data-rawwidth=&399& data-rawheight=&499& class=&content_image& width=&399&&&/figure&&p&Problem Solving with Algorithms and Data Structures Using Python（正在看）&/p&&p&一本用Python讲数据结构和算法的好书，有在线的电子版。&/p&&p&&a href=&///?target=http%3A//interactivepython.org/runestone/static/pythonds/index.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Problem Solving with Algorithms and Data Structures using Python&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&figure&&img src=&/v2-ffb9bece60cf2f9c9a9ef35_b.jpg& data-rawwidth=&407& data-rawheight=&500& class=&content_image& width=&407&&&/figure&&p&Algorithms in a Nutshell: A Practical Guide（翻查用）&/p&&p&算法速查手册，给出了Python的实现。&/p&&p&&br&&/p&&figure&&img src=&/v2-ae6c7fe7bc1_b.jpg& data-rawwidth=&333& data-rawheight=&499& class=&content_image& width=&333&&&/figure&&p&&br&&/p&&p&11. 工作手册(Handbook) &/p&&p&The Data Science Handbook（正在看）&/p&&p&我正在读的，涵盖最全面的一本数据科学工作手册，推荐给想成为“Unicorn&-全栈数据科学家的同学&/p&&figure&&img src=&/v2-d74e9df23cffe_b.jpg& data-rawwidth=&333& data-rawheight=&499& class=&content_image& width=&333&&&/figure&&p&12. 网络爬虫与数据折腾(Web Scraping and Data Wrangling)（还没看）&/p&&p&Web Scraping with Python: Collecting Data from the Modern Web&/p&&p&用Python3手把手教你做爬虫&/p&&p&&br&&/p&&figure&&img src=&/v2-b4ffcd11242fbbfff9535ee_b.jpg& data-rawwidth=&381& data-rawheight=&499& class=&content_image& width=&381&&&/figure&&p&Data Wrangling with Python: Tips and Tools to Make Your Life Easier（正在看）&/p&&p&这本书教你怎么把又脏乱差的原始数据清理，整理，折腾成你想要的样子。&/p&&figure&&img src=&/v2-69df5d51a38cbcdc5d482_b.jpg& data-rawwidth=&381& data-rawheight=&499& class=&content_image& width=&381&&&/figure&&p&Regular Expressions Cookbook（翻查用）&/p&&p&我知道很多人不喜欢正则表达式，但是又不得不面对他，经常翻查这本书应该能搞定很多问题。&/p&&figure&&img src=&/v2-d706f6aac43c_b.jpg& data-rawwidth=&372& data-rawheight=&499& class=&content_image& width=&372&&&/figure&&p&13. 数据可视化与讲故事(Data Visualization and Storytelling)&/p&&p&怎么画出又漂亮又高大上的图表，然后讲一个好故事把你的老板和客户忽悠得一愣一愣的，是一个好的数据科学家的终极大招之一。&/p&&p&Communicating Data with Tableau: Designing, Developing, and Delivering Data Visualizations（还没看）&/p&&p&我知道有些喜欢编程的人瞧不上各种按钮点点点的软件，但是我表示Tableau真的很好用。&/p&&figure&&img src=&/v2-40ee21bf0ddca9d60a5d89e05dbe3aaa_b.jpg& data-rawwidth=&333& data-rawheight=&499& class=&content_image& width=&333&&&/figure&&p&Interactive Data Visualization for the Web: An Introduction to Designing with D3（还没看）&/p&&p&讲怎么用数据可视化工具D3.js。会一些前端技能和Javascript对数据科学家绝对是锦上添花。&/p&&figure&&img src=&/v2-eac9ebebaf9e_b.jpg& data-rawwidth=&381& data-rawheight=&499& class=&content_image& width=&381&&&/figure&&p&Data Visualization with Python and JavaScript: Scrape, Clean, Explore & Transform Your Data（还没看）&/p&&p&一本讲怎么把把Python和Javascript串起来做数据可视化的书，一颗赛艇。&/p&&figure&&img src=&/v2-2a7fdfe0f_b.jpg& data-rawwidth=&333& data-rawheight=&499& class=&content_image& width=&333&&&/figure&&p&Storytelling with Data: A Data Visualization Guide for Business Professionals（还没看）&/p&&p&教你怎么忽悠人23333&/p&&figure&&img src=&/v2-177b67adb9f16ea5aa5fc1_b.jpg& data-rawwidth=&401& data-rawheight=&500& class=&content_image& width=&401&&&/figure&&p&&br&&/p&&p&14. A/B 测试(A/B Testing)（看完了）&/p&&p&A / B Testing: The Most Powerful Way to Turn Clicks Into Customers&/p&&figure&&img src=&/v2-dc4c60fb5bf6_b.jpg& data-rawwidth=&334& data-rawheight=&499& class=&content_image& width=&334&&&/figure&&p&&br&&/p&&p&Designing with Data: Improving the User Experience with A/B Testing（正在看）&/p&&p&Spotify 的 VP of Design and User Experience 写的怎么做AB测试的书。&/p&&figure&&img src=&/v2-4a9ba18a046be1a66b270_b.jpg& data-rawwidth=&333& data-rawheight=&499& class=&content_image& width=&333&&&/figure&&p&&br&&/p&&p&-----------------------分割线-------------------------&/p&&p&第二部分：其他技能(Some Other Skills)&/p&&p&这一部分推荐的书，是为那些想成为数据科学家中的超级赛亚人的同学所准备的23333&/p&&p&15.
神经网络与深度学习(Neural Network and Deep Learning)&/p&&p&Make Your Own Neural Network（正在看）&/p&&p&深度学习炒得火热，但是在认真学习Deep Learning之前，各位巨巨们真的不先尝试下推推公式，然后Python从头自己造一个玩具神经网络玩一玩吗，真的很好玩的！&/p&&figure&&img src=&/v2-ade025f9af129c17d5f6_b.jpg& data-rawwidth=&386& data-rawheight=&499& class=&content_image& width=&386&&&/figure&&p&Deep Learning（正在看）&/p&&p&这个还有介绍的必要吗（望天）&/p&&p&&a href=&///?target=http%3A//www.deeplearningbook.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Deep Learning&i class=&icon-external&&&/i&&/a&&/p&&figure&&img src=&/v2-14aa851db9e939ebdae11d_b.jpg& data-rawwidth=&384& data-rawheight=&499& class=&content_image& width=&384&&&/figure&&p&Hands-On Machine Learning with Scikit-Learn and TensorFlow（还没看）&/p&&p&我觉得对于DS老司机们来说，这本书的Sklearn部分可以无视，重点放在后半部分怎么用&/p&&p&TensorFlow玩深度学习。&/p&&figure&&img src=&/v2-1dccfb24d7efc_b.jpg& data-rawwidth=&381& data-rawheight=&499& class=&content_image& width=&381&&&/figure&&p&16. 信息论(Information Theory)&/p&&p&关于信息论在数据科学上的重要性，可以看看这篇文章：&/p&&p&&a href=&///?target=https%3A////data-science-and-information-theory/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Data Science and Information Theory&i class=&icon-external&&&/i&&/a&&/p&&p&Information Theory: A Tutorial Introduction（还没看）&/p&&figure&&img src=&/v2-ecfd843ea0a8c96ad0f6b69_b.jpg& data-rawwidth=&333& data-rawheight=&499& class=&content_image& width=&333&&&/figure&&p&Information, Entropy, Life and the Universe: What We Know and What We Do Not Know（还没看）&/p&&figure&&img src=&/v2-05bc0ce06a86eb49e3ed_b.jpg& data-rawwidth=&333& data-rawheight=&499& class=&content_image& width=&333&&&/figure&&p&&br&&/p&&p&17. 因果推断(Causal Inference)&/p&&p&关于因果分析的重要性可以看看这个slides:&/p&&p&&a href=&///?target=http%3A//cds.nyu.edu/wp-content/uploads/2014/04/causal-and-data-science-and-BART.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&cds.nyu.edu/wp-content/&/span&&span class=&invisible&&uploads/2014/04/causal-and-data-science-and-BART.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Causal Inference in Statistics: A Primer（还没看）&/p&&figure&&img src=&/v2-89988cecab26cb3ef15503_b.jpg& data-rawwidth=&348& data-rawheight=&499& class=&content_image& width=&348&&&/figure&&p&&br&&/p&&p&Field Experiments: Design, Analysis, and Interpretation （还没看）&/p&&figure&&img src=&/v2-4ae63d01ada0dcbaa3c276f7_b.jpg& data-rawwidth=&331& data-rawheight=&499& class=&content_image& width=&331&&&/figure&&p&&br&&/p&&p&18. 抽样(Sampling)&/p&&p&Sampling（还没看）&/p&&figure&&img src=&/v2-3e5cb3c86ae74929dcd6343_b.jpg& data-rawwidth=&312& data-rawheight=&499& class=&content_image& width=&312&&&/figure&&p&19. 凸优化(Convex)&/p&&p&Convex Optimization（还没看）&/p&&p&斯坦福的凸优化，课程在这里：&/p&&p&&a href=&///?target=https%3A//lagunita.stanford.edu/courses/Engineering/CVX101/Winter2014/about& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Convex Optimization&i class=&icon-external&&&/i&&/a&&/p&&p&另外这本书的网站给出了免费电子书：&/p&&p&&a href=&///?target=http%3A//stanford.edu/%7Eboyd/cvxbook/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Convex Optimization - Boyd and Vandenberghe&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&figure&&img src=&/v2-2a451ceef81_b.jpg& data-rawwidth=&370& data-rawheight=&499& class=&content_image& width=&370&&&/figure&&p&20.
增长分析(Growth Analytics)&/p&&p&Lean Analytics: Use Data to Build a Better Startup Faster (Lean Series)（还没看）&/p&&figure&&img src=&/v2-4f56f98d419bfa768f51c8fc2f21d2c6_b.jpg& data-rawwidth=&333& data-rawheight=&499& class=&content_image& width=&333&&&/figure&&p&Web Analytics 2.0: The Art of Online Accountability and Science of Customer Centricity（还没看）&/p&&figure&&img src=&/v2-ca06c7e726456_b.jpg& data-rawwidth=&399& data-rawheight=&499& class=&content_image& width=&399&&&/figure&&p&21. 文本挖掘与自然语言处理(Text Mining And Natural Language Processing)&/p&&p&Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit（还没看）&/p&&p&Python NLTK的官方指南，有在线版：&/p&&p&&a href=&///?target=http%3A//www.nltk.org/book/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&NLTK Book&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&figure&&img src=&/v2-e75e328a8d8b669f37bb3a58aaf47a61_b.jpg& data-rawwidth=&381& data-rawheight=&499& class=&content_image& width=&381&&&/figure&&p&&br&&/p&&p&Text Analytics with Python: A Practical Real-World Approach to Gaining Actionable Insights from your Data（还没看）&/p&&figure&&img src=&/v2-f78a6cfc944e89fd2dd287_b.jpg& data-rawwidth=&329& data-rawheight=&499& class=&content_image& width=&329&&&/figure&&p&Introduction to Information Retrieval（还没看）&/p&&p&斯坦福的信息萃取，有在线电子版&/p&&p&&a href=&///?target=https%3A//nlp.stanford.edu/IR-book/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Introduction to Information Retrieval&i class=&icon-external&&&/i&&/a&&/p&&figure&&img src=&/v2-cb600afb39db8a480bcd73a_b.jpg& data-rawwidth=&332& data-rawheight=&499& class=&content_image& width=&332&&&/figure&&p&数学之美（正在看）&/p&&p&吴军老师的数学之美。&/p&&figure&&img src=&/38681ce0ddbd22f1cd01b16fa70af657_b.jpg& data-rawwidth=&366& data-rawheight=&499& class=&content_image& width=&366&&&/figure&&p&&br&&/p&&p&22. 异常检测(Anomaly Detection)&/p&&p&Fraud Analytics Using Descriptive, Predictive, and Social Network Techniques: A Guide to Data Science for Fraud Detection（正在看）&/p&&p&这本书我正在读，不难读，作为Fraud Detection的概述讲得还是挺细的。&/p&&figure&&img src=&/v2-ac0b85b0af8f73a874da_b.jpg& data-rawwidth=&336& data-rawheight=&499& class=&content_image& width=&336&&&/figure&&p&Outlier Analysis（正在看）&/p&&figure&&img src=&/v2-c2066c1daf99ae06a6a5b9_b.jpg& data-rawwidth=&361& data-rawheight=&499& class=&content_image& width=&361&&&/figure&&p&&br&&/p&&p&23. 推荐系统 (Recommender Systems)&/p&&p&Statistical Methods for Recommender Systems（还没看）&/p&&figure&&img src=&/v2-42a7ddc6a318c74e791b195f1be1b24a_b.jpg& data-rawwidth=&325& data-rawheight=&499& class=&content_image& width=&325&&&/figure&&p&&br&&/p&&p&Recommender Systems: The Textbook（还没看）&/p&&figure&&img src=&/v2-1b29f1f4e9497efcfc9df1c_b.jpg& data-rawwidth=&361& data-rawheight=&499& class=&content_image& width=&361&&&/figure&&p&&br&&/p&&p&24. 社交网络分析 (Social network analysis)&/p&&p&Network Science（正在看）&/p&&p&大牛Barabási 今年的力作，关于网络科学的简介。有在线版本，里面的图漂亮得我是跪下了。&/p&&p&&a href=&///?target=http%3A///networksciencebook/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Network Science by Albert-László Barabási&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&figure&&img src=&/v2-fffae214cd_b.jpg& data-rawwidth=&380& data-rawheight=&499& class=&content_image& width=&380&&&/figure&&p&Social and Economic Networks（还没看）&/p&&p&斯坦福教授Matthew O. Jackson的书，在coursera上有这本书的公开课。&/p&&p&&a href=&///?target=https%3A//www.coursera.org/learn/social-economic-networks& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Social and Economic Networks:
Models and Analysis - Stanford University | Coursera&i class=&icon-external&&&/i&&/a&&/p&&figure&&img src=&/v2-73e0ca0de9cee_b.jpg& data-rawwidth=&351& data-rawheight=&499& class=&content_image& width=&351&&&/figure&&p&Social Network Analysis for Startups: Finding connections on the social web（还没看）&/p&&p&一本用Python做社交网络分析的书。&/p&&figure&&img src=&/v2-498fed891c16cdc1d7da08a_b.jpg& data-rawwidth=&379& data-rawheight=&499& class=&content_image& width=&379&&&/figure&&p&25. 时间序列预报(Time Series Analysis and Forecasting)&/p&&p&现在很多时间序列的书，重点放在描述时间序列上，所以会大量介绍ARMA和ARIMA。但是我这里想着重强调的是预报（Forecasting）。这里面有一套方法，个人感觉很少被传统统计系的时间序列课程介绍。&/p&&p&Practical Time Series Forecasting with R: A Hands-On Guide（看完了）&/p&&figure&&img src=&/v2-17f0914fdccac8e35aa1aa6d1c3beed7_b.jpg& data-rawwidth=&350& data-rawheight=&499& class=&content_image& width=&350&&&/figure&&p&Forecasting: principles and practice（还没看）&/p&&p&这本书也是有在线版本的，和上面那本书互补。&/p&&p&&a href=&///?target=https%3A//www.otexts.org/fpp& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Forecasting: principles and practice&i class=&icon-external&&&/i&&/a&&/p&&figure&&img src=&/v2-2bbc05a646db171869ee_b.jpg& data-rawwidth=&348& data-rawheight=&499& class=&content_image& width=&348&&&/figure&&p&26. 强化学习与人工智能&/p&&p&Reinforcement Learning: An Introduction（还没看）&/p&&p&强化学习入门书，有在线版&/p&&p&&a href=&///?target=http%3A//people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&people.inf.elte.hu/lori&/span&&span class=&invisible&&ncz/Files/RL_2006/SuttonBook.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&figure&&img src=&/v2-f2c2b2c5f64feb1ecee02f958ac9f3a9_b.jpg& data-rawwidth=&389& data-rawheight=&499& class=&content_image& width=&389&&&/figure&&p&Artificial Intelligence: A Modern Approach（还没看）&/p&&p&Google的大佬，研究总监Peter Norvig的书&/p&}

51无线网