为什么机器学习是行业和研究现在的一个趋势

君,已阅读到文档的结尾了呢~~
基于机器学习经济行业分类方法的研究
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
基于机器学习经济行业分类方法的研究
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口机器学习(machine learning)在经济学领域是否有应用前景?-石投金融
下载客户端
三步轻松贷款,贷款利率低
机器学习(machine learning)在经济学领域是否有应用前景?
本题已收录至知乎圆桌 >> 对弈人工智能,更多关于李世石对战人工智能的解读欢迎关注讨论。
匿名用户 |
浏览次数:343
常见类似问题
回答共有12条
机器学习和人工智能(简称ML/AI)将对经济学产生深远影响。 ML/AI在实际应用中的成功,会倒逼经济学在工程性上与时俱进。 商学院在这点上走在了经济系的前面。很大程度上是因为商学院的评价体系和价值取向更容易鼓励实际应用问题导向的研究。金融、会计领域… 显示全部 机器学习和人工智能(简称ML/AI)将对经济学产生深远影响。ML/AI在实际应用中的成功,会倒逼经济学在工程性上与时俱进。商学院在这点上走在了经济系的前面。很大程度上是因为商学院的评价体系和价值取向更容易鼓励实际应用问题导向的研究。金融、会计领域的顶级期刊上已经有很多利用文本挖掘、自然语言处理、语音识别等技术来从文本、音频等非结构化数据中提取信息,来预测上市公司财务舞弊、预测股价的研究。当然,这些发表在顶级期刊上的论文自然也是能够联系到经济理论、金融会计理论的基本问题上来的(例如资本市场有效性、媒体对市场的影响、会计披露对市场的影响等等)。文献综述可以看这两篇:Textual Analysis in Accounting and Finance: A Survey (/sol3/papers.cfm?abstract_id=2504147) 以及 Speech Analysis in Financial Markets (/article/Details/ACC-024).当真正有重要的应用问题需要解决的时候,才更容易催生务实的价值取向:不管黑猫白猫,逮到耗子才是好猫。搜索引擎关键词广告竞价拍卖的巨大商业价值催生了一批非常高质量的交叉学科研究和学术社区。ACM Economics and Computation是非常有声誉的顶级学术会议。举一个发表在ACM EC的具体的研究:Econometrics for Learning Agents (http://sticerd.lse.ac.uk/seminarpapers/em.pdf). 这篇论文研究的对象是一个非常经典的拍卖实证问题:如何从卖拍的报价数据推断竞拍者对拍卖标的的真实估值。但是作者并不依赖拍卖结果是纳什均衡的假设,而假设竞拍者是不断地在学习最好的竞拍策略。这对于搜索引擎关键词竞价拍卖这个高频率并且拍卖利益巨大应用场景是很贴切的。对于“机器学习不讲因果关系只会肤浅地预测”的刻板印象,我建议研读一下2013年Journal of Machine Learning Research上的论文:Counterfactual Reasoning and Learning Systems: The Example of Computational Advertising (http://jmlr.org/papers/volume14/bottou13a/bottou13a.pdf). 因果问题对于一个实际的机器学习系统非常重要。先挖个坑,等赞到100再补充。
回答于日 00:00
最近看来发展非常迅猛,于是决定答一下这道题…… 其实机器学习的一些简单的想法早就被吸收到计量经济学里了,什么splines啊,k-fold cross validation啊这些,一直有人在用。但这几年随着Athey和Imbens等人的力推确实吸引了越来越多人的眼球。 目前的应用… 显示全部 最近看来发展非常迅猛,于是决定答一下这道题……其实机器学习的一些简单的想法早就被吸收到计量经济学里了,什么splines啊,k-fold cross validation啊这些,一直有人在用。但这几年随着Athey和Imbens等人的力推确实吸引了越来越多人的眼球。目前的应用主要是两方面,计量理论上的和实证上的。理论上主要就是把预测的部分都改用机器学习来实现,典型的例子比如估计propensity score,估计工具变量的一阶段。因为这些环节不涉及因果性,只要预测准确就好,所以机器学习就特别有优越性。现在比较热门的话题是用机器学习来估计潜在结果Y(0),比如在实验里面通过哪些协变量来预测控制组的结果,Lasso在这个环节就大显身手了。还有一个方向是用机器学习来看处理效应(ATE)的异质性,Athey和Imbens之前有一篇文章,普林斯顿的政治学家Imai也做过类似的工作,可以计算如何分配资源以便让竞选活动的效果最大化。实证研究里机器学习往往是起到辅助的作用。比如Olken和他的四个合作者2012年发的一篇QJE,通过卫星照片测量印尼的森林砍伐率。方法就是先找一帮人手动把一部分照片上不同颜色的区块归到各个类别,基于这个训练集估计一个regression tree,再用这个tree模型对剩下的色块分类。再比如做文本分析的时候,先雇人进行词语分类,再以此为标准让机器接下去做。类似的套路已经非常常见了。机器学习带来实质性改变的研究,我所知道的一个是哈佛大学穆纳莱森团队的工作,他们根据美国公民病历上显示的初始症状和最终的病情,预测最优的诊断方式,发现高风险的病人往往没有得到足够的诊断,而低风险的病人却进行了太多的诊断;还有一个是东北大学的政治学家做的,用推特文本来预测美国各个州的民调数据。想到的大概是这些,今后再补充……
回答于日 00:00
作为从业人员且来灌个水,应该说Fintech是这两年很火的概念,在Fintech里很重要的一部分就是利用机器学习进行大数据风控----至少在你能看到的互联网金融企业里大半部分都是这么标榜的。所以我就从这个领域切入来回答下这个问题吧。 其实把机器学习、大数据… 显示全部 作为从业人员且来灌个水,应该说Fintech是这两年很火的概念,在Fintech里很重要的一部分就是利用机器学习进行大数据风控----至少在你能看到的互联网金融企业里大半部分都是这么标榜的。所以我就从这个领域切入来回答下这个问题吧。其实把机器学习、大数据、风险控制这几个字组合在一起的时候,我是在发出低沉的笑:大家都只是想看到自己想看到的信息,不管它对与错,不管自己懂不懂。就像知乎点赞一样,我相对多的部分赞给了我完全不懂的天体物理,不懂,没法验证信息的真伪,只知道看起来很牛逼。互联网金融企业给公众的介绍的时候当然也有类似的效应:风控是金融企业的核心之一,大数据又是极其时髦的字眼,机器学习更是在AlphaGo之后为公众所熟知,结合在一起给投资者满满地信心。但拉句仇恨的说,这每一个词背后都是极其专业的学科,大部分投资人看得懂个屁!鄙人做了七年风控,但不敢说自己精于风控;做了两年数据,觉得还没入门!很多人是不是觉得大数据风控,就是在一堆海量数据的基础上,用上最时髦的算法,然后就可以把风控做好了。不排除很多同行招了一堆数据科学家,也在实验新的机器学习的算法。但是在绝大部分风控场景里,几乎没有领导会因为某个机器学习算法的AUC高就直接采用它。虽然GBDT和LR融合的效果很不错,但是我们的很大部分时间都在做特征工程。虽然我们自己私下里会去尝试着用SVM去做分类,很多大数据风控比赛也有用神经网络,但是在实际业务中我们还是会回到LR,不说部署的问题,把SVM的超平面距离转化成预测的概率就是个难题,ScikitLearn里的输出的Probability也是基于一篇实验性的论文而已,而传统的逻辑回归不但可以输出概率,而且可以进行刻度转换,得到每一个变量每一个分组对最后score的影响,从业务上说很好解释,也很好发现问题。如果上一段是在说机器学习算法发展和实际应用的不同步,那么下面就来说说机器学习本身的局限性。我不确定是否有一天银行可以做到机器学习来控制放款,但至少可以肯定,我的的工作暂时还不会全部被CS专业的人抢走,modelor光有算法还不够,风控的业务经验还能作为老本吃几年。举个例子,假设有个变量叫夜生活频繁程度,在统计量看,IV很高,而且表现出良好的单调性,用还是不用。我相信我的大部分同行在搞清楚它背后所有包含的信息之前是不会贸然让它进模型的。是这群人交际广业务繁忙?是这群人年轻喜欢夜夜笙歌?是这群人有很大部分特殊从业?和地区交叉看一看?和收入交叉看一看?在业务层面总会有很多的思考,而不是靠机器学习给出个结论说,这群人就是越多夜生活越bad。所以回到题主的问题,这个领域当然有得发展了,但是我的想法是,既然是作用于经济,那你要意识到经济的主体永远是人,人的行为人的决策人的动机,当我们用机器学习去拟合人的行为的时候,一定不要迷信算法,人是Bias,人是Variance。最后说句中性的话,前途是光明的,道路是漫长的。
回答于日 00:00
上个做过的案例供讨论。这篇文章是working paper,几年前写了后就放在那里了,是我写的一本书的一部分(A Disaggregate Analysis of China's Regional Development)。如果有同行在这个领域有兴趣,可以看看是否摘出一部分一起写个中文的发表。 插播:文中… 显示全部 上个做过的案例供讨论。这篇文章是working paper,几年前写了后就放在那里了,是我写的一本书的一部分(A Disaggregate Analysis of China's Regional Development)。如果有同行在这个领域有兴趣,可以看看是否摘出一部分一起写个中文的发表。插播:文中热感地图的制作请参看我的另一篇回答:怎么在 Excel 上做数据地图? - 钱粮胡同的回答声明:本人是经济研究领域,机器学习只能说是初学者。当时是在研究中国区域间收入不平等的时候遇到一些问题,所以考虑引用机器学习来尝试开拓新的思路。这里想说的是,无论是机器学习或是传统计量,模型与方法可以很复杂,但是研究的课题仍然可以很传统。不能因为想用机器学习而用,一切研究的出发点应该是学科本身的问题,循序渐进,不能忘本。数据:对于机器学习本身,样本量不大,个人觉得这也是某些经济学领域使用机器学习的限制。中国200多个地级市与区域的50个经济,社会发展,交通,通信与金融等基础设施的变量,时间跨度1992年到2008年。基本所有数据都可以从国家统计局获得(数据的获取可参考:从事经济、金融工作的人都是通过什么渠道获得数据资源,运用什么软件来分析行业状态和经济走势的? - 钱粮胡同的回答)。使用机器学习的原因:开始是因为想看看中国省间与省内最新的GEM指标(广义熵,可分解),然而一方面部分学者已经做过相关的分析,同时我个人觉得局限于省级行政划分的收入不平衡比较传统不够灵活而且高度概括;很多时候人们看收入 (或经济发展程度) 的不平衡不光是跟附近城市的比较,而会说比如一个省会城市的居民,他自己的收入会跟其他省会或者直辖市的比较,看看差距在哪里。因此,打散中国的行政划分,以更小的行政区域为单位(比如地级市 - 因为这里不仅追求空间单位上要尽量小,还要考虑数据的可获得性)重新组合出不同的空间cluster,分析这些cluster间的收入差距就变得有意思了,或者说起码结果会有一定启发性。于是,先做一个简单的散点图,看看省内地级市之间的收入差距和driver:这张图简单的解释就是:垂直虚线的左边的城市群基本都是省会城市或单列市,而这些城市是导致省内收入不均的主要因素。由此,我的基本假设是省间收入的不平衡是长久的话题,而省内的不同质其实已经逐渐超过省间。基于这点,我想采用神经网络 (artificial neural network) 的一种,Self-organizing Map (SOM),来帮我重新分类中国城市(尽量同质),而我不告诉这个系统我的分类标准是什么,我需要做的只是设置学习参数,把整理干净 (normalized) 的数据扔进去。这个模型 (SOM-Ward-clustering, quantization error ~0.0026) 的好处是可以生成漂亮的热感地图,有助于分析理解,尤其是这种地理经济类的研究。引用网上的一个过程图解释SOM的算法(庞杂的数据点逐步unfold到二维分布图上):最终SOM的结果:可以看到样本城市群被分为三类,黄色代表较高发展程度的城市群,粉色代表中等,蓝绿色代表较低。之后的任务就是根据每个集群的属性特点,用经济学解释,编故事写文章了。好玩的是,我们还可以把这些重新分类的城市群画成地级市级别的中国地图,这样就更显而易见,有利于经济学分析与解释:
回答于日 00:00
我已经决定奔向此坑了,就这个。 我也嚣张一把,就让这FLAG在这高高挂起。 经济学之其实很mei友di好xian准则: 1.只要假设允许,方法论随意使用。 2.反向使用统计潜规则,随意证明或证伪任何经济学理论。 ps 1.机器学习可以真真正正站在工具理性的角度用来… 显示全部 我已经决定奔向此坑了,就这个。我也嚣张一把,就让这FLAG在这高高挂起。经济学之其实很mei友di好xian准则:1.只要假设允许,方法论随意使用。2.反向使用统计潜规则,随意证明或证伪任何经济学理论。ps1.机器学习可以真真正正站在工具理性的角度用来迭代大规模的博弈模型啊!你们难道不知道这意味着什么吗?2.想来“解释变量”和“被解释变量”的名字还是优于“自变量”和“因变量”:因果和逻辑未必就有关。3.我还小,统计学并不敢信多少,节操还是想留给概率论。4.请用粗糙的chaos大胆蹂躏光滑的经济模型世界。5.看涨看空,没有投入其实没有意义。
回答于日 00:00
Varian 6月21日下午将会来我们院作个小范围的报告,题目是 Tools for Google Data。 先占个坑,到时候回来写个总结报告。 显示全部 Varian 6月21日下午将会来我们院作个小范围的报告,题目是 Tools for Google Data。先占个坑,到时候回来写个总结报告。
回答于日 00:00
题目说的是经济学中的应用前景,不是量化投资中的应用,很多人上来偏题了,经济学和量化投资的差别显而易见。业界赚钱即可,但我认为经济学的意义在于解释和制定政策。 我的观点是有一定的应用但是非常有限,并且已经挖不出什么东西来了。原因如下: 1. 机… 显示全部 题目说的是经济学中的应用前景,不是量化投资中的应用,很多人上来偏题了,经济学和量化投资的差别显而易见。业界赚钱即可,但我认为经济学的意义在于解释和制定政策。我的观点是有一定的应用但是非常有限,并且已经挖不出什么东西来了。原因如下:1. 机器学习在经济学和金融学的学术论文里出现的越来越多了。其实如果把线性回归,logistic回归和简单的神经网络也当做机器学习的话,那很早以前就有了。但是如同很多答案里写到的,机器学习注重相关性,而经济学往往是注重因果性的,机器学习模型并不能给出因果性。经济学数据很多是时间序列,时间序列具有天然的因果性。2.简单的神经网络(2层)以及logistic回归,都具有可解释性的,而SVM以及深度学习这种模型都是难以解释的。决策树类模型虽然可以给出一个清晰的分类顺序,但是第一,树类模型往往没找到最优解,今年informs上Bertsimas提出了optimal tree,但是第二,即便找到了最优解,决策树给出的模型给出的分类法则也会出现匪夷所思的分类方法。3.据我所看过的几篇非top的论文来看(如果有关于机器学习的论文发在econ top 5上还望告知),机器学习模型在经济学的应用存在‘套’的情况,即选定一揽子模型,每个模型又有几种kernel,在不同的参数环境上测,然后选出最好的一个模型一组参数,说你看机器学习是有用的。而传统的经济学论文呢?提出一个模型,然后在一个参数环境下测,结果还不错,用其他的参数环境测试稳健性,发现稳健,说明现象存在。虽然一篇经济学论文在前期一样要去试模型,但是试模型的范围要小得多,每一个模型都是有逻辑的。另外从成文的思路上看,也可以看出经济学的逻辑和机器学习是不一样的。4.经济学不光是分类和推断。毕竟你不能指望机器学习告诉你最佳的基准储备金率。5.说完不适合的地方再说说我见过的应用,以下都指发出过论文的应用。首先是过去20年不断出现的拿机器学习做交易策略的paper,这些paper有一个共同的特点,就是模型简陋,用的数据非常敏感还装模作样的做cross validation...毕竟如果真能赚钱他们还发什么paper┑( ̄Д  ̄)┍第二种是做非时序的,比如衡量资产风险,这种模型往往比较稳健。由于经济学的论文是需要insight的,所以往往会对因子的重要程度做个排序,当然这种分析跟传统计量的显著性检验等等相比感觉没什么说服力。6.所以综上所述,其实机器学习能给出的经济学insight很有限,大多数论文有灌水的嫌疑,而且这种灌水的机会越来越少了。今年informs上Stanford MSE的教授Kay Giesecke有一个Large-Scale Loan Portfolio Selection,已经用了深度学习+GPU计算,得出来的结果跟简单机器学习比,在大多数情况下也就提升了3-5%的准确率吧。。。 所以我个人是很不看好机器学习在经济学上的应用的,当然在业界管你用什么方法赚钱呢O(∩_∩)O~
回答于日 00:00
没有人邀请我,强行来答。 我最近正在一家公司兼职,做一些「大数据」与传统银行业相关的事情,在这个问题上还是有很多想法的。当然,由于签了保密协议,具体的业务内容和技术细节恕不透露。 按照我回答问题的一贯风格,在回答问题之前,先把「定义」这个问… 显示全部 没有人邀请我,强行来答。我最近正在一家公司兼职,做一些「大数据」与传统银行业相关的事情,在这个问题上还是有很多想法的。当然,由于签了保密协议,具体的业务内容和技术细节恕不透露。按照我回答问题的一贯风格,在回答问题之前,先把「定义」这个问题搞清楚。什么是大数据?我想这个问题不同的人有不同的理解,我理解的大数据有这么几个层次:1、数据量大。这个「大」也有不同层次的理解,要么观测数非常多,要么干脆直接是「全样本」数据。这一点上,对传统的数据存储、计算等都提出了比较高的要求,比如分布式的存储和计算。这是「大数据」的第一个「大」。2、变量多,维数高。这是一个「幸福的烦恼」。对于每一个观测,我们有很多很多维度可以描述清楚这个个体。对于每个人,在社会经济生活中的一举一动,都有可能被某台服务器忠实的记录着,这个潜在的变量规模是不可想象的。甚至,随着文本挖掘、图像识别等技术的进步,我们可以从各种自己想要的维度来挖掘出需要的变量。这是「大数据」的第二个「大」。3、围绕着海量数据、高维数据的数据分析方法。包括但不仅限于传统的统计方法、回归、Logistic、SVM、决策树、聚类、PageRank、神经网络......等各种各样正在飞速发展的数据挖掘方法。以上的理解是我个人的理解,如果有什么不对的地方,欢迎讨论。题主的问题是机器学习在经济学中的应用,但是在这个答案里面,我想更多的讨论一下,「大数据」与经济学的相互影响。先说「大数据」对经济学的影响吧。至少现在来看,虽然越来越多的经济学家开始关注机器学习、大数据,但是对经济学的影响其实有限。但是未来呢?不好说。首先是,机器学习的很多方法本来就是经济学家获得数据的潜在来源。比如文本挖掘的算法,据我所知,已经有人将其应用在了论文中(文章并未公开,所以保密)。这些海量的数据使得经济学的很多领域,比如对社交网络的研究成为了可能。未来当经济学家对某个问题感兴趣的时候,得益于「大数据」的发展,可能更少的受到数据的制约。与此同时,从方法论的角度来看,大数据无疑也会对经济学形成冲击。如果未来的经济学不得不与「大数据」打交道,那么相应的,方法论上必须有相应的发展。传统的经济学最为关注的莫过于识别问题,在「大数据」的条件下,如何仍然能得到清晰的识别?可能在理论上还存在着大量的空白。比如,在Chetty等人的这篇文章:多而无效工具变量下的识别与推断 - EconPaper 中,讨论了当IV随着样本量的增加而增加,且IV都无效的情况下的识别,其实这两个问题,无论是哪一个,都是「大数据」应用在经济学时很可能出现的问题。「大数据」对经济学方法论的影响可能已经开始了。其实我的这个兼职经历让我更想谈的,是经济学在「大数据」上的应用。必须要认识到的是,「大数据」中的很大一部分,都是「人」在社会生活中留下的痕迹,而使用数理框架分析「人」的行为,本来就是经济学的专长。经济学与「大数据」是有本质区别的,比如,经济学更关注「因果推断」以及「识别」问题,而「大数据」似乎对「因果」推断并不感兴趣。比如,《大数据时代》中提出,「更好:不是因果关系,而是相关关系」。我的经验和看法并没有那么的偏激,在业界的应用中,「因果关系」与「识别」并没有那么的重要,然而也并非「相关关系」那么简单。我更喜欢的说法,是《信号与噪声》中的说法,重要的是如何剔除数据中的噪声。噪声可能有很多来源,比较轻微的,比如数据质量问题。很多情况下,在「大数据」与经济学传统的「小数据」之间,存在着一个quantitative-qualitative tradeoff,也就是数据数量与数据质量之间的tradeoff。这种tradeoff本身就存在于经济学中,比如工业企业数据库量大,但是质量还是上市公司的数据质量高;人口普查数据量大,但是质量还是专门的调查质量高。在「大数据」中,为了解决某个问题,会碰到虽然手头上数据很多,但是其实关键变量是缺失的,而其他变量都有不小的噪声。另外一个更严重的问题是,如果缺乏严谨的统计、经济学的培训,可能对数据生成过程(DGP)并不理解,导致结构性的失误。这种噪声带来的就是系统性的误差了。这可能不仅仅是「过拟合」,而是「误拟合」了。举一个再简单不过的例子。有个公司(并非我供职的公司)帮银行做一个甄别理财产品潜在客户的工作,他们使用历史数据,看哪些人更有可能购买理财产品。很简单的,一个Logistic回归也许就能解决问题。银行明确告诉他们,存款余额5w元以下的不考虑,然而公司做出来的结果是,明明余额在5w以下的也有可能购买产品,为啥就不要存款余额5w以下的呢?其实这个问题非常简单,做这个分析的人并没有仔细考虑清楚这个问题的数据生成过程(DGP),并没有真正的理解数据,所以无脑的这样做下来,这样的结果并不奇怪。比如在这里,我们真正关心的变量应该是这个人的「真实财富」,虽然这个人在这家银行的存款余额为5w以下,但是可能这个用户之所以在这里开了储蓄卡,仅仅是因为持有这家银行的信用卡。所以5w以下的客户的确非常有可能购买产品。所以这里的存款余额变量,本来应该是一个「状态变量」,但是实际上,如果仔细考虑DGP,应该是一个「结果变量」。如何排除噪声?可能得建模开卡行为、余额行为才可以。实际上,以上的这些建模思路,都是计量经济学反复培训的,bad control,measurement error, sample selection等等,无一不是在让我们更仔细的思考数据生成过程。在「大数据」中,虽然不重视因果和识别,但是以上问题如果不重视,虽然得到了相关性,但是得到的更多的是被噪声严重污染过的相关性。因为关注的是如何去噪声,而非严谨的因果和识别,因而很多计量上常用的方法,可能也就没有太大必要了。但是计量经济学的建模思路和机器学习的方法结合起来,反而可能收到奇效。比如上面的问题,一个简单的解决思路也许就是结合聚类方法与Logistic回归,就能将模型做的更好。实际上在我的工作过程中,就有过为了剔除噪声,将传统的机器学习、计量经济学的方法重新加以组合而产生的「新方法」。其实总结下来,更精炼的说法就是,经济学、计量经济学的方法,可以在原来的模型中加入新的「结构」,结构的加入可以矫正由于人的种种行为而给数据带来的噪声,解决「过拟合」、「误拟合」的问题,提高模型的精度。所以上海财大经济学院今年新开了一个「大数据经济学」的专业。我并不是非常了解这个专业的具体培养方式,但是我个人觉着是个非常不错的尝试。以上纯属个人看法。
回答于日 00:00
1. 引用身边一位经济学PhD对ML乃至现在广泛流行的data science的概括: "data scientist is the modern fengshui master." 我估计大多数严肃的经济学者会赞成这个观点。(但不屑归不屑,这并不妨碍他们学ML,毕竟业界喜欢简单暴力的prediction而非据说表现… 显示全部 1. 引用身边一位经济学PhD对ML乃至现在广泛流行的data science的概括:"data scientist is the modern fengshui master."我估计大多数严肃的经济学者会赞成这个观点。(但不屑归不屑,这并不妨碍他们学ML,毕竟业界喜欢简单暴力的prediction而非据说表现了casual inference的conceptional toys,这也反映出两者本质差别)2. 但两者却有交叉部分,这个部分恰恰不是在实证领域,如 Learning and Expectations in Macroeconomics (豆瓣),尤其在最近几年,关于information friction的讨论,大量的宏观经济论文使用了social learning来取代rational expectation,认为经济主体是个“学习者”,某些具体的learning algorithm估计ML实践者们会有点熟悉。
回答于日 00:00
我的专栏——机器学习、大数据与经济学研究 - 大石头路73号 - 知乎专栏 对于这个问题,经济学大牛 Varian 已经写论文说过了,知乎上有人给了论文链接,我在这里简单介绍一下这篇文章的内容。 Varian, 2014, Big data: New tricks for econometrics 这里有… 显示全部 我的专栏——机器学习、大数据与经济学研究 - 大石头路73号 - 知乎专栏对于这个问题,经济学大牛 Varian 已经写论文说过了,知乎上有人给了论文链接,我在这里简单介绍一下这篇文章的内容。 Varian, 2014, Big data: New tricks for econometrics 这里有一篇中文的介绍: 【香樟论坛】大数据:计量经济学的新技巧其实这篇介绍的挺详细。但如果我全都照搬过来,岂不是很没有创造性?所以我决定重新写一篇。。。 论文作者是范里安(Hal Varian),学过经济学的应该都知道这位大名鼎鼎的美国经济学家,著有经济学教材《微观经济学:现代观点》,就算没读过应该也听说过。他现在已经从加州大学伯克利分校退休,现任 Google 首席经济学家,参与设计了 Google 广告关键词拍卖系统等项目。 范里安为 Google 设计的「AdWords Select」系统背后的经济学原理是怎样的? - 谷歌 (Google)首席经济学家范里安:谷歌摇钱树 -- 经济金融网 -- 传送门看看他在这篇论文脚注中的作者介绍,感觉还是挺酷的: Hal Varian is Chief Economist, Google Inc., Mountain View, California, and Emeritus Professor of Economics, University of California, Berkeley, California.不知道是不是受到 Google 程序员们的影响,范里安现在对机器学习和大数据很感兴趣。 范里安认为,计算机技术现在已经深入到经济学研究中。传统的统计和计量方法,比如回归分析,当然是不错的研究方法,但如今数据量越来越大,而正好符合研究要求的数据已然有限,同时大数据量让变量之间的关系变得更加灵活,传统计量中的线性以及大多非线性模型可能都无法满足这一要求,所以经济学家需要寻找新的研究方法。范里安认为,机器学习理论中的决策树(decision trees),support vector machines,深度学习(deep lerning)等技术,可以更加有效率的处理复杂的关系。 所以,他在文中的思路可以简单总结为: - 经济学要与数据打交道,传统分析用的是样本等小数据 - 随着经济交流的日益频繁和技术水平的提高,数据越来越大,大数据出现 - 传统经济学分析方法在分析大数据时显得捉襟见肘 - 我们需要新的分析方法 - 机器学习技术可以在这方面帮助我们 这篇文章开始给读者介绍了一些处理数据的方法和软件,以及大型 IT 公司的处理方法,这还是挺有用的。比如在处理百万条的大型数据时需要用到 SQL,数据清理可以用 OpenRefine 和 DataWrangler。 不过计量经济学和机器学习当然是有区别的,作者认为: Data analysis in statistics and econometrics can be broken down into four categories: 1) prediction, 2) summarization, 3) estimation, and 4) hypothesis testing. Machine learning is concerned primarily with prediction.[...]Machine learning specialists are often primarily concerned with developing high-performance computer systems that can provide useful predictions in the presence of challenging computational constraints.[...]Data science, a somewhat newer term, is concerned with both prediction and summarization, but also with data manipulation, visualization, and other similar tasks.计量和统计学主要关注四个方面:预测、总结、估计和假设检验。机器学习主要关注预测。数据科学侧重预测和总结,也涉及数据处理、可视化等。 计量经济学关注因果关系,会遇到内生性等问题,而机器学习则会遇到“过度拟合”(overfitting)的困扰,但机器学习可以关注到计量和统计中样本以外的数据。 那么机器学习如何运用到经济学中呢?作者举了几个例子。 一个是分类和回归树分析(Classification and regression trees,简称CART),这一方法适用于分析一件事情是否发生以及发生概率的时候,即被解释变量是0或1。计量上通常用 logit 或 probit 回归。 范里安这里用的是例子是泰坦尼克号沉船事件中不同人群的死亡概率。作者用机器学习理论中的 CART 方法(R 软件中有这个包 rpart),把船上的乘客按照舱位等级和年龄进行分类。 这是树模型(Tree model)的分类,舱位分一、二、三等,一等最好,三等最差。然后做成树型的样式: 最上面一层把乘客按照舱位分开,左边是三等舱,右边是一等和二等。三等舱(很有可能穷人居多)死亡概率较高,501个人中有370个遇难。接下来把右边一等和二等的乘客按照年龄分类,左边是大于等于16岁的,右边是小于16岁的儿童。先看儿童,这类人群的幸存概率很高,36个人中有34个都活下来了。左边把年龄16岁及以上的人又分为两类,左边的二等舱和右边的一等舱。二等舱233人中有145人遇难,一等舱276个成年人中174人幸存下来。我算了一下,四类人从左到右的幸存概率分别是26%、37%、63%和94%。所以在泰坦尼克沉船时,儿童和一等舱的人容易活下来。 接下来重点关注一下乘客的年龄分布,下图是各年龄段的幸存概率以及置信区间: 从图中可以看出,10岁所有的儿童和60岁左右的人幸存概率更高。 同时,作者又用传统的计量方法 logit 模型回归了一下,解释变量是年龄,被解释变量是幸存(1)。结果如下: 年龄(age)与幸存为显著的负相关,即年龄越小越可能在沉船时活下来,但是系数太小,影响很弱。总结这两种方法作者认为,是否幸存并不取决于年龄,而是乘客是否是儿童或者60岁左右的人,这一点在回归分析中无法反映出来。 类似的机器学习的方法还有一个叫conditional inference tree,这里同样是运用泰坦尼克的数据制作的图: 这幅图把乘客进行了更加细化的分类,添加了性别(sex)一项。pclass 是舱位登记,age 年龄,sibsp 为船上兄弟姐妹和配偶的数量。最下面的刻度中黑色是这一人群的幸存比例。可以得出的结论是妇女和儿童的幸存率最高。(这是因为在沉船的时候大家大喊“让小孩和女人先走”吗。。?) 上面这个例子比较简单,但也足够明了,我认为它比较清楚的解释了机器学习和计量的差别:机器学习更加关注相关性和预测,所以得出的结论是某个年龄段的人群幸存率更高。而计量更加关注因果关系,根据上面的 logit 模型,很难说是年龄导致了幸存,很明显还有很多其他变量没有被考虑进去,比如个人体质等等,或许年龄根本就不是计量经济学家在这里主要考察的变量。而且如果加入交叉项也许会有新的结论。所以简单的说就是模型设定的问题。具体哪种方法更好,还要看具体研究的问题是什么。此外,作者还举了其他机器学习的例子,如 boosting, bagging, bootstrap, bayes,这里就不详细说了。文中的几个例子挺值得一看,可以了解一下机器学习的基本方法。比如利用机器学习研究一家公司投放广告是否有效,传统的计量方法是需要设计实验,设立处理组和对照组,但成本较高。 范里安认为过去几十年计算机科学家与统计学家已经进行了许多卓有成效的合作,他对机器学习在经济学,特别是计量经济学和统计学的应用十分看好,所以范里安给经济学专业的学生一条建议: […] my standard advice to graduate students these days is “go to the computer science department and take a class in machine learning.“学经济学的都去计算机系修一下机器学习的课程吧!” 范里安一方面是传统意义上的经济学家,另一方面由于在 Google 工作的经历,使得他对机器学习技术有了更深的了解,他的观点值得一看。 当然,这也只是他的一家之言,毕竟机器学习和计量经济学在方法、目的上都有较大差别,机器学习是否会真的大范围进入到经济学领域还很难说。不过,计算机技术越来越多的被运用到经济学研究当中已经是不争的事实,而且也是趋势,现在如果不懂点编程技术(至少是计量软件),很难在经济学这个行当走的更远。虽然现在有不少功成名就的经济学家和教授在写代码方面并不精通,但每个时代对人们的要求都有不同,当年计算机技术还没有普及,而他们接受的教育实际上已经比之前的人有了长足进步。我想,今天这个时代对经济学研究者的要求之一就是掌握一定的编程技术吧,虽然不用达到写应用程序那个等级,但也得有较高的搜集数据和处理数据的能力。 所以,如果你只是打算学完经济学就去公司当白领,那么写代码技术可能不是必需的,反而用好word, excel, powerpoint 可能更有用(IT、金融等对写代码有一定要求的行业或岗位除外)。但假如想在学术圈待下去并且有所建树,那么从长远考虑,现在就赶紧去学点编程技术,提高自己的数据处理能力吧。 现在网上这类资源很多,比如coursera上John Hopkins大学很有名的数据科学的课程 https://www.coursera.org/specializations/jhudatascience?utm_medium=courseDescripTop大部分都带中文字幕 我自己也在听这个公开课。另外我也会在YouTube找一些数据处理的课程,YouTube 在这方面的优点是资源很丰富(中国的视频网站在这方面的资源太匮乏),基本上只要你能想到的软件教程都会有。缺点是质量参差不齐,而且有些视频不完整,有的视频发布者更新一段时间就停止了。相比而言,coursera 的质量和完整度都要更胜一筹。所以 coursare 和 YouTube 结合起来还是不错的。 其他参考资料: 计量经济学、时间序列分析和机器学习三者有什么区别与联系? - 经济学
回答于日 00:00
机器学习在经济学领域最大的应用前景必然是量化投资。基于大数据和机器学习的互联网征信固然重要,但毕竟只是一个支持性的领域,不能直接产生收益。基于大数据和机器学习的宏观经济分析也很重要,但也只是提供决策建议。又有什么能比机器学习直接影响投资决… 显示全部 机器学习在经济学领域最大的应用前景必然是量化投资。基于大数据和机器学习的互联网征信固然重要,但毕竟只是一个支持性的领域,不能直接产生收益。基于大数据和机器学习的宏观经济分析也很重要,但也只是提供决策建议。又有什么能比机器学习直接影响投资决策,直接控制几十亿甚至上百亿的资金更有吸引力的呢?前段时间去对外经贸大学做过一次分享,介绍了国内几只大数据基金的框架和原理,已经算得上机器学习和大数据在公募量化投资领域第一步的尝试,再次跟大家分享出来,希望大家能体会一下机器学习在量化投资的应用前景。一、模型框架第一张介绍了传统量化多因子选股模型个部分的组成,以及对应的机器学习工程的各个阶段。 全部A股:样本空间 全部A股到选样空间:ETL过程 选样空间到初筛股票池:基于规则的样本过滤 多因子提取:特征工程 量化引擎:模型构建与训练 量化引擎到指数成分股:模型应用可以看到多因子选股模型已经是一套比较完备的机器学习系统了,在各个阶段,使用不同的模型和算法,就成为了不同的量化模型。这里着重介绍一下特征工程阶段所选的特征,传统的多因子模型所采用的因子主要包括两大类: 财务因子(市盈率、市净率、市销率、资产市值比、主营业务收入增长率、净利润增长率、EPS 增长率、总资产增长率等) 市场驱动因子(选取短期收益率、长期收益率、特定波动率、交易量变化、自由流通市值)。二、大数据基金的特点大数据基金对于机器学习和大数据进行了进一步的应用,主要也在于特征工程这一步,区别于传统特征工程中仅采用“财务因子”和“市场驱动因子”,大数据因子的范围非常广泛,可以说只要有能够量化的影响一只股票的因素,都可以抽象成大数据因子。下面就给大家列一下国内目前几只大数据基金采用的非常有意思的特征: 淘宝大数据100基于淘宝相关行业的选样空间,博时基金与蚂蚁金服生成了“聚源电商大数据因子”用于多因子量化模型的选股。其中支付宝金融信息服务平台提供网上消费类统计型趋势特征数据。根据所得行业投研指标,综合考察行业的景气度,包括:成长、价格、供需情况等,得到行业景气度排名。进而根据景气度对行业内股票给予相应评分,得到聚源电商大数据因子得分。 百发100指数——搜索因子 对样本空间的股票分别计算最近一个月的搜索总量和搜索增量,分别记为总量因子和增量因子;对搜索总量因子和增量因子构建因子分析模型,计算每期个股的综合得分,记为搜索因子; 雪球智选大数据100——雪球热度因子 首先,根据第二步得到的雪球智选组合,计算待选样本的智选组合覆盖度;其次,根据个股的智选组合覆盖度,对股票给予相应评分,记为个股的雪球热度因子得分。 南方新浪大数据——新浪大数据因子 新浪财经频道下的页面点击量,微博的正负面文章报道、新闻报道影响。 银联大数据指数——银联行业大数据因子 基于银联消费类统计型趋势特征数据经加工得到行业投研指标;其次,根据所得行业投研指标,综合考察行业的景气度,包括:消费金额、交易次数等,得到行业景气度排名;最后,根据景气度对行业内股票给予相应评分,得到行业大数据因子得分。 从上面大数据因子的选择我们就可以看到,这些特征本身都是分值类特征,特征生成的过程就用到了机器学习的模型,而这些因子又作为量化选股模型的输入。 三、量化引擎的选择 对于多因子选股模型来说,量化引擎部分当然就是我们说的机器学习模型了。选股模型既可以是一个回归问题——在最后的成分股中选出得分最高的N支股票;也当然可以是一个分类问题——选出最接近目标的那个股票分类组。所以各种机器学习模型也都各显神通。 Adaboost 当然是在这个场景中最直观的模型了,因为各个因子本身就是一个弱分类器,大数据因子更是一个较强的分类器,如何将这些弱分类器融合在一起成为一个强分类器就是Adaboost的使命了。 Logistic Regression 这种万能的算法模型当然也是适用的,将每个因子看作一个feature,然后得到一个score这种事情,Logistic Regression是最拿手的,但对于金融数据来说,样本量毕竟太少,更适合解决大样本简单问题的Logistic Regression用在选股这种实际问题中总归还是有点naive。。 SVM 作为史上最强分类器,当然是解决这种小样本复杂问题的利器,于是各家的量化选股模型确实有不少采用SVM的。 肯定还有很多人想起DNN,HMM等模型,但很遗憾,稍微分析就可以知道在量化选股这个实际问题上这类模型并不那么适用,还是用在高频、择时、趋势等问题的解决上比较好,在此就不再展开了。 以上的经验有我在解决实际问题的一些积累,更多的还是跟金融行业的同学交流讨论的结果,但更多的技术细节就不便透露了。 说了这么多,我觉得大家肯定能够体会到,机器学习在经济金融领域最激动人心的应用还是在于量化投资,还是那句话,又有什么能比机器学习直接影响投资决策,直接控制几十亿甚至上百亿的资金更有吸引力的呢?最后还是要做个广告啊,想和我们更多交流,欢迎关注我的微信公众号「科学投资」:kexuetouzi
回答于日 00:00
【3月28日更新】 最近逛Quora的时候看到斯坦福的教授Jonathan Levin也被问到了这个问题,拟译如下: 【问题】 从短期(2-5年),以及更长远的角度来看,机器学习将如何影响经济学? 【回答】 Machine learning methods are really powerful for fitting pre… 显示全部 【3月28日更新】最近逛Quora的时候看到斯坦福的教授Jonathan Levin也被问到了这个问题,拟译如下:【问题】 从短期(2-5年),以及更长远的角度来看,机器学习将如何影响经济学?【回答】 Machine learning methods are really powerful for fitting predictive models and for doing classification on large-scale, high-dimensional data. These are the data we increasingly use in economics. So I think there’s no doubt many machine learning methods will get used more and more often. 机器学习方法强大的地方在于拟合预测模型,还有对高维度的大数据进行分类。而这种类型的大数据,我们在经济学中正在越来越多地应用。所以我认为毫无疑问, 机器学习方法会被越来越频繁地使用。 One area that's going to get a lot of attention is combining machine learning with causal inference. A big fraction of empirical microeconomics is about finding ways to exploit natural experiments, whether by using instrumental variables, regression discontinuity, matching, difference-in-difference estimators, or other methods. 未来有一个领域将会得到很多的关注,那就是将机器学习与因果推理相结合。实证微观经济学有很大一部分是寻找不同方法来利用自然实验,不管是使用工具变量,回归的不连续性,匹配,倍差法,还是别的研究方法。 Large-scale data has great advantages in terms of finding natural experiments (to take a trivial example, if you want to measure how a July 15 price change affected sales, it’s much more powerful to have daily sales data than monthly sales data). But for the most part economists trying to estimate causal models on large-scale data are using traditional methods like fixed effects linear regression. Having some easy to use alternatives would probably make a significant difference in empirical research. 而大数据的好处在于发现自然实验。举个简单的例子,如果你想要测量七月十五日的价格变动如何影响销售,那么拥有日销售数据就比月销售数据更加有用。不过大多数经济学家在使用大数据测量因果模型时,还在使用传统的方法,比如固定效应线性回归。 有一些易于使用的替代选项很可能会给实证研究带来显著的影响。 I actually think one way machine learning (or really, more data) will affect the field is that after a while it will re-energize economic theory. The reason is that we are going to generate all kinds of new interesting facts – about individual behavior, labor markets, firm productivity, the macro-economy – and having a bunch of new and possibly disconnected or contradictory facts makes a great starting point for new models and theories.实际上,我认为机器学习(或者说,更多的数据)改变这个学科的方式之一是为经济理论研究重新注入能量。原因是,我们能够产生出各种新奇有趣的事实发现——关于个体行为,劳动力市场,企业生产力,宏观经济——而大量看似脱节甚至矛盾的发现,也可以成为新模型和新理论的出发点。【原帖链接】How will machine learning affect economics?【原答案】借用Hansen大神的句式,我猜Machine Learning在经济学中的应用前景大概是:『It allows you to do something without having to understand anything.』注:Lars Hansen 谈起自己的研究时,往往会这样概括:『It allows you to do something without having to do everything.』Lars Hansen: Doing Something Without Doing Everything
回答于日 00:00
对以上回答还不满意?您可以想我们的的专家咨询您的问题
*此回答内容仅代表网友个人观点供用户参考及研究用途,不构成任何投资理财建议
贷款相关计算器
大家都在问
热门银行贷款利率?}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信