spa treatmentt effect 计量

苹果/安卓/wp
积分 21, 距离下一级还需 3 积分
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
本帖最后由 wanghaidong918 于
09:29 编辑
作为新手有点糊涂,想问一下,treatment effect model的作用或者目的是什么?是为了解决内生性问题吗?我看有的帖子说heckman模型的一个扩展?
载入中......
评论一项决策的效果!
本帖最后由 sungmoo 于
13:52 编辑
*y为因变量,x*是自变量,z为哑元,w*为自变量:
treatreg y x*, tr(z=w*) two
*等价于以下命令:
predict gw, xb
g lambda=normalden(gw)/normal(gw) if z
replace lambda=-normalden(gw)/normal(-gw) if !z
reg y x* z lambda
总评分:&经验 + 100&
论坛币 + 60&
学术水平 + 1&
热心指数 + 1&
信用等级 + 1&
zhangzhishi长知识
为了积分,求顶起
谢谢~~~~~~~~
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
论坛法律顾问:王进律师统计和计量有什么区别? |
我的图书馆
统计和计量有什么区别? |
【JichunSi的回答(22票)】:谢邀。我从的方面说,我觉着统计和差别非常之大。一个计量经济学家需要懂很多统计学的知识,但是在此之前,他必须是一个家。一个最明显的现象是,最好的计量经济学家言必谈identification,而这是在传统的统计理论里面所没有的。同样是在做回归分析,看的东西也不一样。比如在这个争论里面,经济学家在做OLS的时候,更关注你的你的回归方程误差项里面有什么,而不是这个误差项的方差有多大。前者决定了identification,后者决定了R2。举个例子,做教育的回报,看看多读一年书能带来多少薪水上的提高。经济学家会关心误差项里面有一个人的能力,这个变量是看不到的,但是与教育这个变量相关,所以OLS是有问题的。但是经济学家不会关心跑出来的这个回归预测能力怎么样,也就是说R2究竟有多大。所以我们需要工具变量的估计。经济学家甚至可以做出负的R2,只是为了使得回归更有意义,比如这里:讲到IV,其实工具变量的方法是可以从统计的角度来看,说白了就是一个矩估计的方法。但是真正的计量经济学家是可以看到这个方法的经济学含义的,比如如果你学了Local Average Treatment Effect的话,你就知道了工具变量估计出来的东西到底是什么东西,而不仅仅是一个统计上的结果。这也是统计跟计量的区别吧。另外计量经济学有两个流派,一个是reduced-form的估计,一个是structural的估计。structural的估计深植于经济学的理论,理论会告诉你你的计量模型的问题和答案。举个例子,生产函数大家都知道,比如经典的C-D生产函数:,当我们需要估计里面的参数的时候,可以写成:,其中u是扰动项。也许你会想,这个跑个OLS就可以做出来了,但是计量经济学家会告诉你,不对!因为企业做决策的时候是知道自己的技术水平()的,所以资本与劳动的投入都是与技术水平有关的,但是,技术水平是我们观察不到的。怎么去估计呢?这种计量的问题是脱不开经济学理论的。如果计量经济学是统计学的子集,那这门学科完全没必要存在。===========再补充个例子吧,比如在这个问题:里面,统计学家跟经济学家的思考可能是不一样的。在经济学里面,有那么几个概念我觉着是非常重要但是容易被忽略的,比如data generating process(DGP)。而这个概念又跟reduced-form紧密相连,structural equations 在产生数据的时候肯定是先变成reduced-form再去产生数据。无论是做reduced-form还是structural form,计量经济学家脑子里一定是要有DGP这个东西的。所以为什么取对数?经济学里面有个词,叫做弹性。另外,对数之差就是增长率。经济理论,特别是宏观理论,经常可以得到log的形式。而且因为有了弹性,取log之后更容易被经济学所解释。说白了,计量经济学从经济理论出发,统计学可能更多的从数据出发。如果从统计方面考虑,我想碰到取不取对数的问题的时候,我更愿意用box-cox transformation。【知乎用户的回答(3票)】:其实的答案概括下就可以得出最后结论:计量经济学是在经济学上加入统计方法的学科,同时需要原有经济学的理论支持,统计方法只是为用罢了。不知道题主问题计量是否专指计量经济学,当然这是目前知名度最高的。其他像所说,有计量心理学等等。个人的定义是将学科素材数据化,从而应用统计方法进行研究的门类(当然也有理论经济学等)。如果说要从含义上区分这两个词汇,个人的理解是:统计是对一般对项数据处理分析方法的研究,而计量是特指统计方法与某项实际学科结合应用后所产生的特定化方法(结合不同学科数据和理论的特点,往往统计处理的方法会有所变化,就像所说,重视某些&不重视某些or下一步该怎么做)【知乎用户的回答(0票)】:个人觉得将统计学知识应用于经济领域就是计量。但计量对经济学基础的要求高于对统计学基础的要求。。。【张启新的回答(0票)】:对于这个问题,我给出一点我自己的愚见吧,因为我对计量比较熟悉,计量与统计有点相同,但计量肯定是大于统计的,计量是一门非常复杂的科学,许多诺贝尔奖的议题属于计量技术领域,我们生活中的很多事物需要计量,比较食品检测,需要计量检测,才能判断是否安全达标,计量还有很多高级运用,比如发射导弹,靠卫星进行时间计量,必须精确到万分之一秒钟的时间才能做到精确,还有一些计量不光保证质量,还能带来许多经济效益,比如工厂节能改造,依靠计量技术研究院来做。。。。。计量的运用其实很复杂。
馆藏&67665
TA的推荐TA的最新馆藏
喜欢该文的人也喜欢这个问题真心好!&br&我自己做学生的时候学计量,基础很差,理论不行,应用就更是一塌糊涂。后来不断弥补,算是勉强可以过关。到现在当老师,发现学生们和我们原来的学习内容区别并不大,教材也许换了,核心的东西还是没变。着急啊~&br&&br&正面回答题主的问题:&br&第一,学计量必须学编程。&br&第二,学到什么程度主要取决于你的目标。&br&第三,最好的建议就是干中学!&br&&br&下面一个一个说:&br&第一,为啥学计量必须学编程?&br&扯远一点哈,我觉得我国引入西方经济学的教育之后,进步极大,但是偏理论,轻应用的风向变化不大。经济学进了课堂,一个模型连着一个模型,一个想法接一个想法。但是我们似乎很少提及这些想法和模型背后的经济现实是怎样的?那些经典的想法,论文,模型,都是有他们相应的现实背景的,并不是经济学研究者凭空想出来的,也不是想怎样设定,就怎样设定的。我发现很多学生,谈起模型设定,结论的证明,那是刚刚的,看得多,记得清,比我这个老师强多了。但是具体给一个问题,运用经济学的思维想想看,应该怎么入手,怎么分析,一下子就能难倒一大片。更不用说如果要求学生们自己去寻找问题,开题,写论文,憋几年没啥进展的情况,多了。&br&在计量领域,也是类似的情况,各个层次的计量课程,以我所在的高校为例,学校本身不差,学生质量也好。授课内容主要还是集中于回归及其证明,学生们证明无偏,有效,渐进一致,大样本性质,刚刚的。让他们自己找数据跑跑回归,解释一下经济学含义,就都露馅了。收集数据不知道在哪找,数据质量不好不会清洗,回归模型的选择,变量的筛选,鲁棒的检验,一概是两眼一抹黑。更不用说编程的质量了,自己的程序,满屏的abcd,三个月后自己都不明白自己写的什么。性能的优化,版本的控制,就根本没法涉及了。而这些东西,其实都可以在学习编程的过程中逐渐获得,而且对以后的研究工作帮助也很大。&br&这就是为什么我觉得学计量,必须得学编程的原因。当然,我并不是说理论就都可以抛弃不学了,没有理论基础,光学些软件操作,那确实是无根之木,只能算学了个技能,不能算学到了知识。而我心目中理想的计量课程,应该是理论和编程各一半的,至少大概的比例不会偏差太多。&br&再退一步说,我也发现,很多学生直接告诉我,老师其实我以后不准备做研究的~~~那么你更应该好好学习一下编程了,一门技术傍身,应该比一堆模型傍身更有利于找工作~~~&br&&br&第二,学编程是必须的,但是不是每个人都要像计算机专业那种学法。绝大多数同学,其实只要掌握一些编程的基本原则和方法就够了,现在的编程语言越来越高级,像R,stata这种,其实大部分时候依赖别人写好的包即可,并不是每次都要自己重新发明轮子的~所以最关键的还是按自己的目标来学。目标明确,学到即止。有需要的就深入,没需要的就浅出,够用就行。毕竟我们是经济学专业的,不是计算机的么~&br&&br&第三,最好的建议,其实稍微关注一下知乎上面计算机的大牛就会发现,大家的说法都差不多,边学边练,边练边学,就是最好的办法。编程这种东西,不下功夫写上一定量的代码,光靠老师讲的天花乱坠也没用。所以补充一下上面的说法,好的计量课程,不仅应该理论和编程各一半,还需要两者不断交叉融合,学一段就练一段,练了再学,不断反复互相印证,才能真正的掌握好计量这门课吧。
这个问题真心好! 我自己做学生的时候学计量,基础很差,理论不行,应用就更是一塌糊涂。后来不断弥补,算是勉强可以过关。到现在当老师,发现学生们和我们原来的学习内容区别并不大,教材也许换了,核心的东西还是没变。着急啊~ 正面回答题主的问题: 第…
DSGE全称是dynamic stochastic general equilibrium,是目前在宏观经济学研究占重要地位(甚至是主导地位)的模型方法,主要用于讨论经济增长、经济周期以及讨论政策工具效果(财政和货币政策)。&br&&br&传统的宏观预测模型受制于Lucas批判。Lucas认为,利用加总的历史数据来给出政策建议和经济预测,其结论值得怀疑,因为宏观系统本身是有大量具有能动性的微观主体组成,这里的微观主体既可以指居民消费者——他们可以根据物价变化和收入变化等改变自己消费、储蓄行为,也可以指企业——可以根据物价、成本、市场需求变化来调整自己的生产。如果在建立预测模型时,罔顾这些微观主体应对政策和实际市场的反应,而只是机械地进行统计意义上的数量预测,其结果是非常不可靠的。统计方法成立的前提条件是历史再现,也就是过去和现在具有同样的机理才会反应出同样的经济效果,但是无论是企业还是居民甚至在面临类似经济形势下会做出不同的反应,原因当然各异,他们有学习、试错、反馈并修正的作用。所以过去有效的政策今天可能失灵,甚至有反效果。&br&&br&Lucas批判的直接后果就是,宏观经济学的主流后来就完全放弃了传统的那套联立各种变量进入一个巨大的方程组,然后求解参数,得出一个描述关于宏观各变量互相变化的“伪”规律,然后再以此进行预测。&br&&br&事实上,传统宏观预测模型——许多国家的央行在70年代就用来进行政策评估——试图建立价格和数量之间的相互关系,一般都是一个具有上千个变量的巨大方程组,然后交给计算机运行来得出结果。这种所谓“相互关系”,即使正确,也是一种权宜之计,因为你根本无从知道方程两边的自变量和因变量之间到底是什么关系——是不是因果关系,如果是,谁是因,谁是果,如果不是,难道有其他变量在决定两者吗?诸如以上问题,传统方法是无从给出答案。&br&&br&宏观经济学必须寻求微观基础,从需求方和供给方的微观决策入手,刻画其面临各自约束的最优决策,然后再对各个微观主体的决策行为进行加总,得到所谓的总供给和总需求,然后利用市场出清的条件来求出价格、利率等影响双方的关键变量,从而决定入失业、市场工资、居民收入等内生变量。在此基础上建立起来的数量关系,虽然不能说就一定反应了各个变量之间的真实关系,但是至少可以拿来试错。&br&&br&最后一句话该怎么理解?既然搞出来的东西都不知道是不是真实的,那搞个毛啊?&br&&br&事实上,最理想的宏观模型是怎样的?应该是经济学家调查每家每户以及每个企业的各种决策行为,长期跟踪,建立起一家一户和各个企业的决策函数,然后由此进行加总获得总供给和总需求,然后政府以此来改变利率、税率、货币发行量等变量,看看这些微观主体的反应如何,择优而为之。&br&&br&显然,以上策略不具有操作性。&br&&br&更何况,如果你认为利率、税率是真实的概念的话,那么所谓总供给,总消费等这些宏观概念是否在真实世界中有明确对应呢?Who knows!&br&&br&所以经济学家的策略:从一些公认的对于微观主体的假设出发,建立模型并推导出他们的决策并进行加总,然后反过来将实际数据代入其中来“凑”。如果在现有参数下能很好解释一些重要的可观测数量,比如失业率,消费占GDP比重,投资占GDP比重,实际利率等等,那么我们就认为这个模型至少能很好滴刻画了现有的经济。然后这套模型就好比是一个实验室,我们就可以来看看,假设税率提高,或者财政补贴上升,会如何。&br&&br&微观基础是基于对行为主体的偏好设定上的,所以DSGE可以被用来分析政策变化的福利效应。&br&&br&顾名思义,DSGE首先必须是动态的,也就是任何决策都是跨期决策,而不是静态决策。其次,是stochastic,因为在现实中微观主体都是生活在一个充满不确定性的世界里,比如技术进步,价格波动等。最后,这必须是一个general equilibrium model,也就是说,DSGE是继承了数理经济学在战后发展起来的最重要成果——一般均衡理论。&br&&br&DSGE本质上是一种方法,是宏观经济学自战后在方法论上的一次重大创新。DSGE可以被不同思想学派的人用来构建反应本学派思想主张的模型(就是对微观主体的偏好、技术、约束作出你认为正确的假设),然后按照程序进行推演就是了。&br&&br&Lucas所在的理性预期学派提出了著名的RBC模型,也就是real business cycle,中文通常翻译为真实周期理论。当然实际上并没有对应的所谓虚假周期理论。这里的”真实”实际是指这个模型的所有变量都是定义在真实变量而不是名义变量上的,或者更直白一点,这个模型里是木有货币的,所有的物价也好,工资也好,其度量衡就是实打实的,不存在货币可能带来的一切效应。&br&&br&不假设货币的存在当然跟现实相距甚远,但是首先这样做使得模型变得简单,可控可解。其次,货币到底有啥用,本身就是一个在经济学很纠结的问题,各个学派都有自己的想法,根本无法达成统一。但大家都承认的一个事实是:货币如果是必须的,那么整个经济就是肯定不是complete market。这里就不解释什么是complete market了,简单说,就是这个世界一定存在着某些摩擦,必须靠货币的流通来解决之。所以RBC就自动假设我们处于一个complete market里。&br&&br&最重要的是,尽管RBC把货币拿掉了,但是最后的结论还是可以在很大程度上保持与现实数据的吻合。这至少说明拿掉货币,没有导致模型失真。&br&&br&当然,没有货币,你也无从讨论货币政策的作用——当然,反过来说,既然没有货币的模型已经可以解释世界了,那么货币政策或许大概就真没什么用吧!&br&&br&这最后一句话激怒了凯恩斯的徒子徒孙们——凯恩斯主义者。凯主义者学会了DSGE这套方法后,就复兴了凯恩斯大佬的思想,这一派被称为新凯恩斯主义者。他们将一些非竞争性因素和其他摩擦加入模型,比如企业之间的垄断性竞争,工资调整具有刚性。
DSGE全称是dynamic stochastic general equilibrium,是目前在宏观经济学研究占重要地位(甚至是主导地位)的模型方法,主要用于讨论经济增长、经济周期以及讨论政策工具效果(财政和货币政策)。 传统的宏观预测模型受制于Lucas批判。Lucas认为,利用加总…
这里还是说一下PhD的不同吧。&br&利益相关:大三时候上过一所美国学校的宏观一年级课和两门二年级课;大三到大四时候上过一所国内学校的所有宏观一年级课以及部分二年级课;然后现在也上过另一所美国学校的宏观的全部博士课。&br&&br&讲公道话,用国内和国外老师的好期刊文章数来比较老师质量,会低估国内的水准,毕竟就算是学术圈也是human business。然而我所感受到的老师质量的差距,刨去老师对于课程奉献程度的不同,大概是国内就算是海归老师,和国外顶尖的老师相比,在直觉上也有差,对知识融会贯通也不太够。我想有以下的主要原因。一是国内的老师大多使用国外的现成教材,而国外的老师用自己的教材或者自己熟人的教材……写书的人如果讲课,或者用自己的讲义上课,和照本宣科是不一样的。前者,老师知道自己的逻辑,知道各要点的融会贯通。后者,老师跟着书上的逻辑走亦步亦趋,并不能真正阐释到位,也不能发挥老师自己的水准。大四时候一个老师上课推Diamond-Mortensen-Pissarades模型,直接手写Hamilton-Jacobi-Bellman方程,问这个怎么推的?不知道。而上学期的老师就从头到尾严格推导,我才恍然大悟心服口服。大三时候老师证明CCAPM,问这能否看成Lucas Tree的定价结果?不知道。而去年上课的老师就顺手提了一句,我就通了。这并不是说国内老师不行——大四时候上宏观课老师的直觉非常清楚,甚至比一本风行全球的教科书的某作者要讲的有思想。只是国内大多数情况还都是直接照搬,十分遗憾。二是国内就算是海归老师,很多人也讲不清楚同等级的博士课,需要自己领悟和摸索。而在美国的比较好的学校,基本你需要自己领悟和摸索的部分都可以被老师一句话点穿。毕竟国内的顶尖,在世界不过二流。不过老师水准也在慢慢迫近,这个急不得。&br&&br&另一件事是数学的教学和使用。大家都说国内数学学的多,其实不是这样的。且不说包括我在内的很多人,学数学追求技术而不重视原理,就算是光比数学水准,我也不觉得国内的顶尖学生和国外的顶尖学生比有什么优势。为什么早期的中国博士大多是做计量、微观理论,少有以各种交叉学科,实证等见长的?因为数学是公平的,是不用语言和说服的,也是最好理解的。而我们因为文化原因和语言原因,很难用印欧拉丁语系说服别人,讲文章的时候就很吃亏。与其说我们的数学有优势,还不如说我们其他方面有劣势,造成了数学的比较优势,从而早期很多人去做数学相关的工作了。好在现在这一点我们也在慢慢赶上来。&br&&br&最大的区别大概是博士生所面对资源的数量级差异。无论是大三我去的学校还是现在所在的学校,每周我的研究相关领域至少有3场论文讲演。而我本科的学校,一周至多1-2场。而且在美国,会议研究会都非常多,你可以很容易接触到自己领域里的几乎所有人。再有就是国内不太容易见到高水准的老师,而美国相当平等。记得原来申请时候问一个著名老师催交推荐信,他在我的几乎所有申请材料截止一个月之后才回复了我——申请里都写了链接,当时心急如焚的我每天发一封邮件,都如石沉大海。现在就算我给学校里一个诺奖发邮件,他一天之内纵然身在全球各地也是会回复的。更不用说很多高水准的老师每周甚至每天都有时间和你讨论问题。这些人把研究当事业。国内就真的相差不小。而会议和老师的资源,对于博士生而言是至关重要无出其右的。&br&&br&资格考。第一年的话也不是所有学校都让最好的老师上课,也不是很难(我几乎确定。。吧。。),第二年上细分领域也不会说难度有下降,因学校而异吧。而且(我应该能说)资格考也不难,就是气氛有点让人紧张罢了。第一年学的东西大多都非常基础,如果觉得十分艰深的话可以考虑quit。&br&EJMR。这是一个闲人云集的地方。其实到后来很多的八卦你都会比EJMR上知道的快。可见EJMR大多数还是博士和本科生在上吧……除了EJMR的job market板块,那是唯一(?)值得关注的板块。&br&&br&可能根据评论加内容,但最近紧张的很,心情也郁郁寡欢,还请不要太期待频繁回应。。。&br&--&br&谢诸位问候心情。在这里贴一个我问的问题 &a href=&/question/& class=&internal&&如何缓解读博中反复抑郁的症状? - 抑郁症&/a&
这里还是说一下PhD的不同吧。 利益相关:大三时候上过一所美国学校的宏观一年级课和两门二年级课;大三到大四时候上过一所国内学校的所有宏观一年级课以及部分二年级课;然后现在也上过另一所美国学校的宏观的全部博士课。 讲公道话,用国内和国外老师的好…
谢邀。&br&我从计量经济学的方面说,我觉着统计和计量差别非常之大。&br&一个计量经济学家需要懂很多统计学的知识,但是在此之前,他必须是一个经济学家。&br&经济学家碰到的问题其实很简单,就是带着自己的经济学理论,用数据验证自己的理论。所以在计量经济学里面,最核心的问题不是估计、推断,而是identification。&br&同样是在做回归分析,看的东西也不一样。&br&比如在&a href=&/question//answer/& class=&internal&&线性回归中的 ANOVA 的作用是什么?&/a&这个争论里面,经济学家在做OLS的时候,更关注你的你的回归方程误差项里面有什么,而不是这个误差项的方差有多大。前者决定了identification,后者决定了R2。&br&举个例子,做教育的回报,看看多读一年书能带来多少薪水上的提高。经济学家会关心误差项里面有一个人的能力,这个变量是看不到的,但是与教育这个变量相关,所以OLS是有问题的。但是经济学家不会关心跑出来的这个回归预测能力怎么样,也就是说R2究竟有多大。&br&所以我们需要工具变量的估计。经济学家甚至可以做出负的R2,只是为了使得回归更有意义,比如这里:&a href=&/ecopaper/& class=&internal&&R-squared&0 in 2SLS-IV estimation? - EcoPaper - 知乎专栏&/a&&br&讲到IV,其实工具变量的方法是可以从统计的角度来看,说白了就是一个矩估计的方法。但是真正的计量经济学家是可以看到这个方法的经济学含义的,比如如果你学了Local Average Treatment Effect的话,你就知道了工具变量估计出来的东西到底是什么东西,而不仅仅是一个统计上的结果。这也是统计跟计量的区别吧。&br&另外计量经济学有两个流派,一个是reduced-form的估计,一个是structural的估计。structural的估计深植于经济学的理论,理论会告诉你你的计量模型的问题和答案。&br&举个例子,生产函数大家都知道,比如经典的C-D生产函数:&img src=&///equation?tex=Y%3DAK%5E%7B%5Calpha%7D+L%5E%7B%5Cbeta%7D& alt=&Y=AK^{\alpha} L^{\beta}& eeimg=&1&&,当我们需要估计里面的参数的时候,可以写成:&img src=&///equation?tex=%5Cln%5Cleft%28+Y+%5Cright%29+%3D%5Cln+A%2B%5Calpha%5Cln+K%2B%5Cbeta+%5Cln+L%2Bu& alt=&\ln\left( Y \right) =\ln A+\alpha\ln K+\beta \ln L+u& eeimg=&1&&,其中u是扰动项。也许你会想,这个跑个OLS就可以做出来了,但是计量经济学家会告诉你,不对!因为企业做决策的时候是知道自己的技术水平(&img src=&///equation?tex=A& alt=&A& eeimg=&1&&)的,所以资本与劳动的投入都是与技术水平有关的,但是,技术水平是我们观察不到的。怎么去估计呢?这种计量的问题是脱不开经济学理论的。&br&如果计量经济学是统计学的子集,那这门学科完全没必要存在。&br&===========&br&再补充个例子吧,比如在这个问题:&a href=&/question/& class=&internal&&在统计学中为什么要对变量取对数?&/a&里面,统计学家跟经济学家的思考可能是不一样的。&br&在经济学里面,有那么几个概念我觉着是非常重要但是容易被忽略的,比如data generating process(DGP)。而这个概念又跟reduced-form紧密相连,structural equations 在产生数据的时候肯定是先变成reduced-form再去产生数据。无论是做reduced-form还是structural form,计量经济学家脑子里一定是要有DGP这个东西的。&br&所以为什么取对数?经济学里面有个词,叫做弹性。另外,对数之差就是增长率。经济理论,特别是宏观理论,经常可以得到log的形式。而且因为有了弹性,取log之后更容易被经济学所解释。&br&说白了,计量经济学从经济理论出发,统计学可能更多的从数据出发。&br&如果仅仅从数据方面考虑,我想碰到取不取对数的问题的时候,我更愿意用box-cox transformation。&br&================&br&这个答案只是写的计量跟统计的差别,完全没有要比统计和计量孰优孰劣的问题。本来就是两个有交集但是不相同的学科,怎么比较好坏。 &a data-hash=&89de6a7a6af5e2d8c008cc84& href=&///people/89de6a7a6af5e2d8c008cc84& class=&member_mention& data-tip=&p$t$89de6a7a6af5e2d8c008cc84& data-hovercard=&p$b$89de6a7a6af5e2d8c008cc84&&@马大王&/a&说计量用的统计方法都是十年前的,我不知道这是不是在鄙视计量,但是我想跟你说,你们统计的方法还是十年前的数学方法呢,数学家也没鄙视你们啊。&br&这方面很多啊,比如GMM,统计学家对此嗤之以鼻,但是经济学家就是喜欢用啊。为什么GMM这么受经济学家欢迎?还是因为上面的问题,因为GMM最容易被经济学家所理解,而GMM提供了一个非常好的框架来解决一系列经济学家碰到的问题。那些变量是内生的,那些变量是外生的,理论上来说谁会影响谁,谁不会影响谁,这本来就就是经济学理论的范畴,而GMM可以把这套经济理论上的东西直接转化成怎样识别、估计。&br&有人提到了Sims,他的确即是统计学家,又是经济学家。计量经济学的确一直走在借鉴统计学的路上,就好像统计学一直在借鉴数学方法。计量经济学家认为的跟统计学的差别,就好像统计学家认为的跟数学一样的差别一样,我们借鉴你的某些工具,但是不完全是一回事情。&br&最后,针对评论里面两个人的言论,我想统一回复:如果我哪里说错了,请指正,就像 &a data-hash=&edc& href=&///people/edc& class=&member_mention& data-tip=&p$b$edc& data-hovercard=&p$b$edc&&@SlowMover&/a&在一楼所做的那样。我不回答这种无所谓的问题。我也可以同样反问你,do you really know econometrics and economics? do you really understand what I am saying?
谢邀。 我从计量经济学的方面说,我觉着统计和计量差别非常之大。 一个计量经济学家需要懂很多统计学的知识,但是在此之前,他必须是一个经济学家。 经济学家碰到的问题其实很简单,就是带着自己的经济学理论,用数据验证自己的理论。所以在计量经济学里面…
我是个学术渣渣,专业金融,目前小硕,本科期间发了一篇cssci,两篇北大核心,都是一作。&br&&br&求学术大神勿喷,我确实是学术渣,但是就算没有经验,教训总还是有的,只是跟楼主分享一下学术渣接地气儿的经历。。。&br&&br&本科的时候差不多也是大二暑假开始准备,目的也是保研夏令营,保研的时候拿到差不多十个学校的面试资格,参加了三个,都拿到了offer,不过最终的选择让很多人觉得差强人意,有个人其他因素在,故不予参考。&br&&br&&b&1.选题&/b&&br&关于这个问题,最好曾在大一大二期间参加学校甚至国家级科研课题,这样即能与教授取得较多联系又能对专业领域内某个研究课题略懂一二,再不济也读了几篇文献了。我当时命好,赶上“次贷危机”刚结束,学者开始研究次贷危机,所以跟着学院的一个教授做了相关的课题。当时因为只是个参与者,也是个校级课题,所以做的很简单,但是却对我之后的选题有了很大帮助。&br&所以建议你如果参加过不妨延伸这个课题,没参加过请跳到第二步。&br&&br&&b&2.联系教授&/b&&br&我当时就是联系了课题指导老师,所以也比较简单,如果你即没有第一步,又没有明确的老师,那就合二为一:首先多阅读一些时下热门的金融类文章,找找话题敏感点,然后去图书馆下载相关的文献,最好在暑假确定选题并进行文献综述的过程,之后去学院相关网站查阅教授的研究方向,接下来妹妹你大胆的往前走吧,去联系教授,告诉他你的研究,希望参与到他的这项课题研究中,或者直截了当的请他指导科研,据我的经验,教授们都是相当和蔼的,我从来没遇到过碰钉子的时候。顺便给你推荐个微信公众号,其实就是巴曙松的研究所,他的课题,绝对前沿,给你找找灵感,不喜勿喷~&br&&img src=&/6a59accedb7cd1f35cb96_b.jpg& data-rawwidth=&750& data-rawheight=&1334& class=&origin_image zh-lightbox-thumb& width=&750& data-original=&/6a59accedb7cd1f35cb96_r.jpg&&&br&&b&3.软件学习+文献阅读整理&/b&&br&大二之后,我也只学了spss,后来又学了eviews,确实比较初级,你会R,Matlab已经相当好了。软件肯定是要自己学的,然后就是大量阅读文献,尤其是外文文献,对于模型的构建很有帮助。最最关键的是,一定要在文献阅读过程中确定自己论文的&b&创新点&/b&!东拼西凑的论文最多只能发个自掏版面费的期刊。记得当时浙大一位34岁的正教授语重心长的跟我说,你本科期间发的这种期刊,以后可不敢再发了,以后被查出来我们还发过这样的期刊会有负加分的。。。当然,我最后还是没去做他的研究生,现在还觉得很对不起教授,扯远了。。。&br&&br&&b&4.论文写作&/b&&br&这个过程,没啥说的,就是变写边出问题,一会儿“数据找不到”,一会儿“模型不理想”一会儿“逻辑都混乱了”,总之问题是层出不穷,不过要始终相信阳光总在风雨后。这时候,找一位好的指导教师的作用就大大体现了,总能够在你一筹莫展的时候推你一下,这段不说了,真正写的时候你就会遇到问题了,这一句两句也说不清,也说不定文章写的很顺利。&br&&br&&b&5.投稿&/b&&br&这个过程也很艰辛,石沉大海属于常态,但上天总是不会辜负努力的孩子。&br&我当时运气好到我的指导教师收到她之前发过论文的杂志的约稿,主题和我写的论文正好十分契合,一投即中,大概是上天看我那么没有学术天赋还那么努力,照顾我一下吧。&br&所以,海投是必要的,找学术大牛推荐是个捷径。&br&&br&关于论文发表的过程,大致就分享这么多,祝你好运&br&有空的时候,可以再分享保研的经验,祝顺利!&br&&br&-----------保研-------------&br&有知友质疑了保研时论文发表的重要性,下面根据我的经验作个简单的阐述,不过必须声明的是:&br&&br&学校排名,所处地域,专业方向,导师知名度等等都大相径庭,很有说法,所以,以下说法肯定不适用于任何学校,有反对意见可以提出,拒绝恶意抨击~~&br&&br&&b&成绩&/b&&br&保研时候,成绩是绝对的重中之重,&b&想要保到C9院校或者北京上海的其他985的“金融专业‘,&/b&那我劝你成绩能有多好就考多好,复试的时候你就会发现,大家都是各自学校各自专业的专业第一,全系第一,国家奖学金基本人手一份,校级一奖二奖就不用专门拿出来说了。&br&&b&总之,成绩是重中之重。&/b&&br&&br&&br&&b&本科背景&/b&&br&&b&这个。。。保研绝对是英雄必问出处的地方!如果想保到清北,本科不是985(甚至限制于c9),根本不可能通过网申。其他c9院校,北京上海的985院校基本也是这么个标准,不过211院校也有很多通过的,看你的其他条件够不够好了。&/b&&br&&br&&br&&b&英语成绩&/b&&br&&b&这个应该是金融专业和其他专业比起来比较苛刻的地方,很多工科专业只要求通过大学英语六级,但是金融专业很多学校都是要求大学英语六级550以上。&/b&&br&&br&&br&&b&科研&/b&&br&很多本科生都么有发表过论文,但是起码要有科研经历,我本科期间主持了一项国创和一项校级项目,所以这方面经历也算通过了。不是只有发表过论文的才能保研,&b&只要能证明你有兴趣有能力进行科研才是最重要的 。&/b&&br&&br&&br&&b&学生工作及荣誉&/b&&br&说实话,在保研的时候,导师是招你来做研究的,不是招你来做学生干部的,所以有些教授反而还不喜欢你有太多社会活动,志愿者经历,&b&当时浙大的教授就亲口跟我说:“我看你本科时候做了很多学生工作,以后做研究就不能再浪费时间做这些了”&/b&,这也是我最终放弃这个offer的原因,不是不好,而是与我个人不契合。但是有很多学生工作经历及荣誉起码可以说明你有能力,如果能把成绩搞的很好,再有很多荣誉,那肯定也是正加分了。&br&&br&&b&暂时想到这几点,上天对努力的孩子不会太差,付出一定有回报的~&/b&
我是个学术渣渣,专业金融,目前小硕,本科期间发了一篇cssci,两篇北大核心,都是一作。 求学术大神勿喷,我确实是学术渣,但是就算没有经验,教训总还是有的,只是跟楼主分享一下学术渣接地气儿的经历。。。 本科的时候差不多也是大二暑假开始准备,目的…
怎么没有人提兰小欢的这篇用Chinese Student Protection Act of 1992 (俗称人血馒头法案) 的研究啊。&br&&br&原文&br&Lan, Xiaohuan. &Permanent visas and temporary jobs: Evidence from postdoctoral participation of foreign PhDs in the US.& (2009).&br&&br&&br&作者研究的题目本身就很有趣,是看美国的博士后劳动力市场的。他想实证的主题是:为什么那么多在美国拿到博士的非美国居民愿意干工资很低的博士后的工作呢?一般有两个可能性, 一个是这些博士们本身非常热爱科研而不计较工资报酬,另外一个就是博士后工作可以得到在美国合法居住的身份。&br&可能大部分人都会直觉上觉得是后者,但是要从实证的角度来证明得到美国合法居留身份就是很多人愿意从事博士后工作的&b&原因 &/b&其实是很难的。(关于计量里面causal-inference的问题太多了需要另开一贴讨论,在这里就不展开了)。&br&那么有没有一种可能,就是假设美国政府给所有外国籍博士一毕业就给绿卡,保证他们都可以合法留在美国, 然后这样就可以清楚的看到还有多少博士处于科研上的热情愿意去干博士后了嘛!&br&&br&可是到底有没有这样的事情发生过呢?&br&有没有呢?&br&&br&现在视线拉回遥远的东方。在80年代末曾经发生过一个著名的事件(你懂的)。在该事件发生以后,美国在1992年颁布了一项法案,该法案规定,对于所有在1990 年4月11日之前抵达美国的中华人民共和国的居民全部授予永久居留权(绿卡) (具体法案详情请自行搜索Chinese Student Protection Act of 1992 )。当然当时所有博士毕业的中国学生也包括在内。&br&&br&他具体操作使用2SLS,然后得出的结论大家大概也能猜得到,当然是证实了大多数人的猜想。这里就不赘述了。&br&&br&Updated on feb 22th ,2015
&br&搬运 一下评论区 &a href=&///people/b09ea18dcf0c0& data-hash=&b09ea18dcf0c0& class=&member_mention& data-tip=&p$b$b09ea18dcf0c0& data-hovercard=&p$b$b09ea18dcf0c0&&@chenqin&/a&
的补充:&br&&br&&br&这篇文章的结论是:当时,中国人在美国读博士的有57%选择继续申请博士后。但是如果博士毕业就能拿绿卡,那么申请的概率就下降到43%。 换句话说,在美国申请博后的中国人中,有四分之一是为了绿卡而去的。要是博士毕业就有绿卡的话,他们博士毕业就离开学术界了。&br&---------------------------------------------------------------------------------------------------------------------------------&br&这大概是我最初读得很过瘾并且有“哇塞 原来学经济学的脑洞还可以这样开” 的感觉的论文之一吧。虽然后来转行了,但是想起来当初的感觉还在。
怎么没有人提兰小欢的这篇用Chinese Student Protection Act of 1992 (俗称人血馒头法案) 的研究啊。 原文 Lan, Xiaohuan. "Permanent visas and temporary jobs: Evidence from postdoctoral participation of foreign PhDs in the US." (2009). 作者研…
&p&克拉克奖获得者苏珊.阿瑟说过一句话就可以概括了:神经网络的预测能力强,但是解释力差,而传统计量的解释力强,预测力弱。工程重预测,经济学重解释。&/p&&p&题主说一定要有模型,这个倒未必,很多计量也可以是探索性的,自变量因变量设定一下,先跑一个线性回归看看显著性,很多研究都这么开始的。但是计量的好处在于,回归结果出来之后,不管解释了因变量变化的百分之几,但是估计值就在哪里放着,哪个变量显著,哪个变量不显著,哪个变量更重要,可谓是一目了然。然后我们就可以或者用现有理论来解释回归结果,或者提出新的解释。&/p&&br&&p&但是神经网络高度非线性,往往就是把参数输入进去,然后输出一个预测结果,一般来说,我们比较的是预测的精度,预测越准,我们认为这个算法越好。但是经济学家需要回答的是为什么。因为高度的非线性,各种参数之间在神经网络内部互相纠缠,我们只知道最后的结果是好的,但是无法把这个预测掰开了,揉碎了告诉大家,分别来自于哪个参数的作用。&/p&&br&&p&在工程上,往往需要的是结果,所以预测准就够了,就能够用来开发诸如在线推荐系统等等基于机器学习的应用了,但是经济学需要的解释经济现象背后的原理,为什么这么准呢?目前还是需要用经典的计量来解释更有效。&/p&&br&&p&苏珊.阿瑟本人有计算机本科学历的背景,对机器学习的各种比较工程的方法不排斥,并且在联通机器学习和计量经济学方面做了很多的工作。有兴趣去她的主页看看:&a href=&///?target=https%3A//www.gsb.stanford.edu/faculty-research/faculty/susan-athey& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Susan Athey&i class=&icon-external&&&/i&&/a& &/p&&p&比如这篇文章 &a href=&///?target=https%3A//www.gsb.stanford.edu/faculty-research/working-papers/machine-learning-estimating-heretogeneous-casual-effects& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Machine Learning for Estimating Heretogeneous Casual Effects&i class=&icon-external&&&/i&&/a& 就很有意思。&/p&
克拉克奖获得者苏珊.阿瑟说过一句话就可以概括了:神经网络的预测能力强,但是解释力差,而传统计量的解释力强,预测力弱。工程重预测,经济学重解释。题主说一定要有模型,这个倒未必,很多计量也可以是探索性的,自变量因变量设定一下,先跑一个线性回归…
恰好前段时间跟一个统计背景的同事争论过这个问题,基本上,只有一个办法:增大样本量。&br&&br&多重共线性是一个小样本条件下比较棘手的问题,我们知道在线性回归的情况下,系数估计的方差为:&br&&img src=&/v2-c626a6a7c4a1a3b617692_b.png& data-rawwidth=&566& data-rawheight=&110& class=&origin_image zh-lightbox-thumb& width=&566& data-original=&/v2-c626a6a7c4a1a3b617692_r.png&&多重共线性反映在最后一项上,也就是说是的系数的方差变大了。&br&&br&注意多重共线性并不意味着假设检验的完全失效,实际上,如果原假设为真,我们的假设检验不会错,size永远是对的,或者说犯第一类错误的概率总是能控制的;但是如果我们的原假设为假,多重共线性导致power大大降低,所以很容易犯第二类错误。&br&&br&翻译成人话就是,多重共线性会使得你更容易得到不显著的结果。另外还有一个推论就是,如果你得到了显著的结果,也就不用去管什么多重共线性的问题了。这也就是为什么我个人感觉审稿人拿多重共线性说事都是耍流氓:拿去审的稿件基本上不会不显著,如果人家的结果显著了还怀疑多重共线性的话,只能说审稿人自己统计没学好。&br&&br&为了说明这一点,我们做个小模拟看看:&br&&br&&div class=&highlight&&&pre&&code class=&language-text&&program drop _all
program define test_multi
set obs 30
gen x1=rlogistic()
gen x2=10*x1+rnormal()
gen x3=3*x1+3*x2+rnormal()
gen y=x1+x2+(rchi2(1)-1)
* run the desired command
reg y x1 x2 x3
simulate _b _se, reps(10000): test_multi
gen test1=abs(_b_x1)&1.96*_se_x1
gen test2=abs(_b_x2)&1.96*_se_x2
gen test3=abs(_b_x3)&1.96*_se_x3
sum test1 test2 test3
&/code&&/pre&&/div&&br&下面是一万次模拟的结果:&br&&img src=&/v2-27d8af3ebb4ea33aad061f97e1c08792_b.png& data-rawwidth=&1174& data-rawheight=&240& class=&origin_image zh-lightbox-thumb& width=&1174& data-original=&/v2-27d8af3ebb4ea33aad061f97e1c08792_r.png&&注意x1 和x2真实系数都为1,x3的真实系数为0,三个变量都是高度共线性的。前两个系数反映了power,最后一个反映了size,可以看到size基本上是对的(0.058约等于0.05,由于我的残差不是正态的且样本量只有30,偏差主要来自于非正态的小样本偏误),但是大大影响了power(x1的拒绝率只有0.08,意味着如果存在多重共线性,跑100次回归只有8次得到了显著的结果)。&br&&br&如何解决呢?如果我们把样本量扩大到,比如说,500,我们得到了如下结果:&br&&img src=&/v2-100d85fe8f622bfa734b4dd_b.png& data-rawwidth=&1170& data-rawheight=&218& class=&origin_image zh-lightbox-thumb& width=&1170& data-original=&/v2-100d85fe8f622bfa734b4dd_r.png&&首先,由于样本量增大了,所以x3的假设检验结果也更「对」了,更接近于0.05;其次,增大样本量大大提高了x1 x2的假设检验的power。如果样本量增大到1000呢?&br&&br&&img src=&/v2-59af6ac93b9ab0f7b22b6_b.png& data-rawwidth=&1190& data-rawheight=&192& class=&origin_image zh-lightbox-thumb& width=&1190& data-original=&/v2-59af6ac93b9ab0f7b22b6_r.png&&&br&&br&所以答案也就呼之欲出了,为了解决多重共线性,办法只有一个:&b&增大样本&/b&。&br&&br&尽管题主排除了剔除变量这个选项,但是我还是不得不说一下为什么不能剔除变量。道理很简单,因为经济学关注的是系数,如果把x2剔除了,那么就会导致x1的估计大大的向上偏误,即大大高估了x1的影响力,这是比多重共线性更加难以让人接受的情况。所以任何以剔除变量为手段的解决多重共线性的方法,在经济学里都是不被接受的。&br&&br&当然,如果你不能增大样本,结果又不显著的话,那只能祝你good luck了。
恰好前段时间跟一个统计背景的同事争论过这个问题,基本上,只有一个办法:增大样本量。 多重共线性是一个小样本条件下比较棘手的问题,我们知道在线性回归的情况下,系数估计的方差为: 多重共线性反映在最后一项上,也就是说是的系数的方差变大了。 注意…
谢邀&br&&br&我不是股票方面的专家,但这是一个很有意思的问题。希望更多大牛来展开讨论&br&&br&首先这个数据意味着什么。我们可以看看一个金融市场,都有哪几个级别的数据,然后分别获得的难度是怎么样的。&br&一、日OHLC数据,这个数据应该是最常见的了,Open、High、Low、Close。一般来说,大部分Python和R的包都提供了访问Yahoo Finance的接口,通过yahoo你就可以拿到这些数据。&br&&br&二、Throttled数据,所谓Throttled,就是固定时间更新的数据范式了。比如中金所500ms的盘口数据、大商所250ms的盘口数据。一般来说,Throttled数据包括盘口和之前一个period里面的成交信息(Trade Data)。很多人抱怨中国高频不好做,只有Throttled的数据,但是这不是中国的专利,在美国很多市场,比如CME、BrokerTec,如果你买入门级别的日内数据,就是Throttled。而国外市场也有基于Throttled数据就盈利的交易商。&br&&br&三、Per Trade数据,那么Throltted之上是什么呢,就是每次有交易(Trade),就更新对应的数据,由于数据的Trigger从Chrono的时间变成了Trade,所以每次更新里面含有的Trade信息就是精准的逐笔交易信息了。一般而言,有了这个数据,你就可以做一个相当准确的回测系统了。因为结合你的延迟信息,你可以估计在你的单到达交易所的时候和发单之间有没有交易发生,发生的话一般规律是什么。这个数据在国内是没有公开提供的。&br&&br&四、Per Quote数据,这个数据精度更加高于Per Trade数据,只要有人挂单撤单,或者整个市场级别有人的报单有变化,就会Trigger数据的发布。因此比如在一个品种上只有人挂单撤单,没有人实际交易(干瞪眼),你也有全面的市场表化情况。基于此数据,回测将十分精准,你也可以判断是否有人在Spoofing了(当然你不知道是谁在spoofing)。这是美国或者一般发达市场提供的公开数据的极限,也是最贵的实盘数据了。同时,由于数据量太大,对于传输方式和你交易系统的负载能力提出了比较高的要求——你会收到交易所撮合机同等数量的信息,系统或者硬件稍微跟不上,轻则丢包,惨则当机,这也是为啥国外引入FPGA等技术来硬件加速tick data的处理的问题。&br&&br&五、帐号级别数据:那么再上面一层是什么,就是Per Quote的数据给每一个Quote加上一个Field:帐号。你知道每个Quote都是哪个帐号发出来的。因为你只有帐号ID,你不知道是谁,但是对于做研究来说,这已经足够了。这个数据对于绝大部分交易所来说都是有储存,但是非公开的,一般提供给交易所相关的研究、监管机构做分析用。从2010年开始这部分数据的分析开始在学术界慢慢有出现。如何用,也是这里我们要聊的。&br&&br&你可以看到,这个数据已经属于高频数据中的指环王了。2013年我在伯克利的时候,一个教授买了一台96GB的Dell工作站,然后让我帮他Clean一些C++的code,当时就是处理土耳其的一年的帐号级别的数据,由土耳其交易所官方提供。所以从学术界的角度来说,我知道的目前用到了帐号级别的数据的一部分研究有:&br&&br&Investor Networks in Stock Markets, Walden, Ozsoylev, Yavuz, and Bildik&br&VPIN and the Flash Crash, Easley, Prado and O'Hara&br&Very fast money: High-frequency trading on the NASDAQ, Carrion&br&The diversity of High-Frequency Traders, Cvitanic and Kirilenko&br&&br&还有很多类似的和相关的,大家有兴趣可以Google一下,简而言之,一般的方向有:&br&&br&一、定位Informed Trader:什么是Informed Trader,就是当一个固定的事件发生的时候,总是先下单的个体,如果有统计显著的informed trader存在,那说明这个市场存在比较严重的信息不对冲和操纵现象。一般而言,合规的高频交易员是不会lead一个trend的,他们只会follow informed trader,并且很快的follow。按照国内通俗的说法,informed trader是庄家,高频的是快速跟庄的,他们一起赚跟庄比较慢的散户的钱。&br&&br&二、市场信息传递链:信息传递链,简而言之,就是一个Event发生后,交易是如何一步步在这个市场发生的。要做这个研究,需要根据长期交易行为先给每个帐号打上标签。比如Informed Trader,High Frequency Trader,Day Trader,Long Team Holder,以及Chaos Trader(就是散户)。然后分析某种事件价格或者资产是如何在不同的团体之间传导的。这方面的研究对于提升市场效率有帮助,比如你要制定熔断或者涨跌停板,科学的办法就是基于这种信息传递链的研究。使得在市场失效的时候市场机制可以稳定信息的传递,不至于出现踩踏现象。&br&&br&三、关联帐号分析:其实从监管的角度来说,要查关联帐号,没有必要用这么深度的数据,统计帐号下单的IP或者联系券商客户经理就足够了。但是要从整个市场的层面来分析关联帐号以及关联帐号的作用——比如关联帐号是不是对盈利有帮助。帐号级别的数据是可以帮忙的。通过简单的方法可以定义一些关联帐号的规则——比如两个帐号大量交易在很短的时间间隔里面完成,具有高度的相关性。&br&&br&四、获利行为分析:这个研究在美国和韩国的我有看到过,但是中国也许不适合直接套用。简而言之,国外的Research有把短期的交易行为定义成Taker、Market Maker和Passive Trader。如何接地气的来看到这三种交易呢,Taker,就是抢单的,你可以理解为国内的日内炒手,Market Maker,做市商,期权中现在有了这个角色。Passive Trader,被动交易员,这个最迷惑,按国内的说法就是,大量撤单流——他们成交主要靠被动单来获得、退出风险。美国的经验来说,Taker的每单利润一般是Passive Trader的3倍,韩国也有类似的结果。中国这方面的研究可以在期货、期权上进行,股票上面直接套用可能不合适。&br&&br&说了这么多,都是从比较宏观的研究、监管的角度来说的,当然如果你是个体户、或者你是一个交易员,突然有一天来了一个人加你QQ,通过了二话不说直接传你一个压缩文件,你下载了发现拿到这么份数据,为了防止查水表请先在获得监管机构批准的情况下你可以考虑做以下事情:&br&&br&帐号信息你也不用了,反正也不知道都是谁,直接拿着Per Quote的信息做一个顶级回测吧,有了这个数据基本上你的回测都是极其Realistic了,滚蛋吧假设君。我不觉得这个数据可以让你策略从不赚钱直接变成赚钱,但是一定可以让你从赚钱变成更赚钱。
谢邀 我不是股票方面的专家,但这是一个很有意思的问题。希望更多大牛来展开讨论 首先这个数据意味着什么。我们可以看看一个金融市场,都有哪几个级别的数据,然后分别获得的难度是怎么样的。 一、日OHLC数据,这个数据应该是最常见的了,Open、High、Low、…
&b&&u&更新&/u&:&/b&谢谢大家的赞同、感谢和评论。我再贴一个之前用Python做的数据处理,定义了一个比较复杂的新变量,算是简单的feature engineering吧。这个任务如果用Stata来做就会比较头疼。另外,这个例子也可以用来体验一下IPython Notebook (要用网页版看,手机版效果不佳)。&br&GitHub链接:&a href=&///?target=https%3A///yifeidata/Machine-Learning-Mini-Project/blob/master/Feature%2520Engineering.ipynb& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Machine-Learning-Mini-Project/Feature Engineering.ipynb&i class=&icon-external&&&/i&&/a&&br&------&br&&b&&u&原回答&/u&:&/b&我来分享一下自己关于Python和Stata的经验,算是抛砖引玉(我R用得很少就不讨论了)。我要强调一下,我对Stata和Python都只能算是入门,所以下面对二者的比较很可能限于我的水平而不够中肯。还望指正。&br&&br&&b&先说结论&/b&:&u&对于应用性的数据分析,从只使用Stata,到较为流利地使用Python,很可能会受益匪浅,并伴随着豁然开朗的愉悦体验。这些技能适用面比Stata更广,并且只要肯花些力气,学会基本的东西起来并不会有太多困难。加之Stack Overflow之类社区对学习效率的巨大提升,学习Python的投资回报率很高。&/u&&br&&br&我是做应用微观的,大部分的研究项目不涉及任何高深的计量方法,基本上是走用心问问题,然后下苦功夫搜集一手数据的“苦情”路线(偏经济史方向的研究是从原始历史档案中搜集的数据,偏管理科学方面的研究是从用的一家公司的员工互相评价的绩效考核数据)。所以对软件的需求主要是数据清理、变换、可视化之类。&br&&br&我最初是用Stata. 当时觉得Stata还是蛮方便的,特别是定义一下新变量(bysort: gen之类的语法很好用),以及跑跑OLS/Logit回归,然后输入表格到Latex. 这些基础功能Stata实现起来真是非常方便。不过,美中不足的是,一旦要自己写写函数,就开始不习惯Stata编程的方式了,所以代码不容易重复使用,Do File一长,慢慢就觉得有些乱。再就是矩阵操作和运算功能不太好用。&br&&br&后来随着自己对data science和machine learning的兴趣,在edX, Coursera, Udacity等平台上了一些基于Python的课程。其中对实用工具的学习收获最大的是edX上MIT的两门Python课程(6.00.1x和6.00.2x),以及Udacity上的Intro to Data Science. 上了这些课以后,自己做了一些machine learning的小项目。当时学习的目的本不是为了应用到自己的经济学研究中去——那段时间里,除了一个博弈论的模型我无从下手分析,用Python做了一下agent-based simulation刻画了均衡的性质外,并没有真正拿来完整地做一个项目。&br&&br&有意思的是几个月以后,我开始了一个新的项目,虽然仍然不需要高深的统计和计量,但是在数据的处理上,比之前更复杂——需要把数据汇总成一些转换矩阵 (transition matrix),然后做一些计算,以及做大量的数据可视化。有感于之前使用Stata的力不从心,开始新的项目的时候,我尝试着完全用Python Pandas来做数据操作(data manipulation)、用Matplotlib画图。另外一个原因是,当我开始用IPython Notebook以后,便欲罢不能了——代码和分析结果(图表)被整合在一个文档里(一块代码后面紧跟着输出结果),非常适合整理和分享。谁用谁知道。&br&&br&最开始从Stata转到Python的时候,还是不太习惯Pandas DataFrame,特别是对于Reshaping, MultiIndex, pivot_table等功能。所以还是蛮怀念Stata. 后来慢慢感受到Pandas强大的数据操作功能。&br&&br&简单来说,使用Python以后,我最满意的效率提高在于所有的分析都自动化了,从原始数据到最终所需要的图表、结果,不需要一些半自动化的手工调整。而且代码的可重复利用程度显著提升。另外就是,使用Python以后,得益于数据操作能力的增强,我变得比之前更频繁地将数据可视化,几乎所有的回归分析我都会做相应地描述性分析和可视化。&br&&br&最后,不得不提的是Python相关社区的强大。我有不会的就Google,搜索出来的Stack Overflow的问答、以及一些技术博客里面的内容,基本上都能解决问题。然而,使用Stata的时候,常常会有无力感,卡住了就卡住了,纠结很久只能靠读文档然后自己摸索。&br&&br&---&br&&b&补充:&/b&有朋友问到我用什么做图。我就用Matplotlib. 虽然觉得算不上太好用,但是目前基本的功能也差不多够了。下面贴一些我一个经济史研究中的一些图。都是一些很基本的东西,只是为了让感兴趣的朋友大概了解一下我的使用情况。见笑啦:)&br&&img src=&/8f92e6beabb8cf117f4ffdc3_b.png& data-rawwidth=&800& data-rawheight=&600& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&/8f92e6beabb8cf117f4ffdc3_r.png&&&img src=&/fbcd060fc8ccfd5ad898e_b.png& data-rawwidth=&523& data-rawheight=&441& class=&origin_image zh-lightbox-thumb& width=&523& data-original=&/fbcd060fc8ccfd5ad898e_r.png&&&img src=&/805efcb0e95f463f0d8675f1_b.png& data-rawwidth=&800& data-rawheight=&600& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&/805efcb0e95f463f0d8675f1_r.png&&&img src=&/0ac1cf1728bcd197e965d7d7150cc4ce_b.png& data-rawwidth=&797& data-rawheight=&527& class=&origin_image zh-lightbox-thumb& width=&797& data-original=&/0ac1cf1728bcd197e965d7d7150cc4ce_r.png&&&img src=&/b8c12c1f9a4b1548ef85_b.png& data-rawwidth=&825& data-rawheight=&720& class=&origin_image zh-lightbox-thumb& width=&825& data-original=&/b8c12c1f9a4b1548ef85_r.png&&&img src=&/ed82c0e67b4e26e05a24_b.png& data-rawwidth=&951& data-rawheight=&819& class=&origin_image zh-lightbox-thumb& width=&951& data-original=&/ed82c0e67b4e26e05a24_r.png&&
更新:谢谢大家的赞同、感谢和评论。我再贴一个之前用Python做的数据处理,定义了一个比较复杂的新变量,算是简单的feature engineering吧。这个任务如果用Stata来做就会比较头疼。另外,这个例子也可以用来体验一下IPython Notebook (要用网页版看,手机…
做过各种数据的预测,发现用一般的机器学习(SVR, randomForest, lasso,xgboost等等)都有这样的特点,乍一看拟合效果和预测效果都不错,pmse也很小。&br&&br&但如果把预测图画出来仔细看相位的话,会发现很多时候你的预测结果其实只是真实值平移了一个时间单位。数据的频率越高,这个类似平移的延迟效应越明显,特别是金融数据,哪怕加入了其它外生特征。&br&&br&看过很多机器学习与时间序列相关论文,都在夸自己的模型多牛逼多厉害,都把预测误差弄得很小很小,却很少论文真的把预测值和真实值的图仔细分析一遍。只要稍微注意看一眼,就会发现预测值真的很像是把前一天的真实值往后平移了一下而已……&br&&br&个人理解是这些模型都认为对明天最好的预测就是今天的数值,E(Xn|X_n-1,...)=X_n-1…&br&&br&所以,评价一个时间序列预测模型的好坏,只看平均预测误差的都是耍流氓……个人感觉机器学习在时间序列上的效果有时候还不如传统的状态空间模型……&br&&br&扯远了。在问有什么模型能够预测之前,记得先做随机性检验呀,多个相互延迟的序列的相关性呀之类的,不然人家本来就没啥规律,或者说你找来的特征根本没啥影响,硬要上模型,结果弄了半天的feature engineering发现啥效果都没有,然后继续去试其它模型,简直是在浪费生命hhh……&br&&br&考虑周期(如加入季节因素,正余弦项等)分组,分层,变系数,local model with kernel,有时候会有奇效。
做过各种数据的预测,发现用一般的机器学习(SVR, randomForest, lasso,xgboost等等)都有这样的特点,乍一看拟合效果和预测效果都不错,pmse也很小。 但如果把预测图画出来仔细看相位的话,会发现很多时候你的预测结果其实只是真实值平移了一个时间单位。数…
谢邀。&br&&br&感谢题主告诉我居然还有这么好的东西,我以前根本不知道!&br&&br&ubuntu上试了一下,可以直接apt-get install gretl安装,略惊讶,要知道julia 都没这个待遇。上手试了一下,very impressive。&br&&br&我们先来看一下这个软件的介绍:&br&&blockquote&Features&ul&&li&&p&Easy intuitive interface (now in French, Italian, Spanish, Polish, German, Basque, Catalan, Galician, Portuguese, Russian, Turkish, Czech, Traditional Chinese, Albanian, Bulgarian, Greek, Japanese and Romanian as well as English)&/p&&/li&&li&&p&A wide variety of estimators: &b&least squares, maximum likelihood, GMM; single-equation and system methods&/b&&/p&&/li&&li&&p&Time series methods:&b& ARIMA, a wide variety of univariate GARCH-type models, VARs and VECMs (including structural VARs), unit-root and cointegration tests, Kalman filter, etc.&/b&&/p&&/li&&li&&p&Limited dependent variables:&b& logit, probit, tobit, sample selection, interval regression, models for count and duration data, etc.&/b&&/p&&/li&&li&&p&Panel-data estimators, including &b&instrumental variables, probit and GMM-based dynamic panel models&/b&&/p&&/li&&li&&p&Output models as LaTeX files, in tabular or equation format&/p&&/li&&li&&p&Integrated powerful scripting language (known as &a href=&///?target=http%3A//sourceforge.net/projects/gretl/files/manual/hansl-primer.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&hansl&i class=&icon-external&&&/i&&/a&), with a wide range of programming tools and matrix operations&/p&&/li&&li&&p&GUI controller for fine-tuning &a href=&///?target=http%3A///& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Gnuplot&i class=&icon-external&&&/i&&/a& graphs&/p&&/li&&li&&p&An expanding range of &a href=&///?target=http%3A//ricardo.ecn.wfu.edu/gretl/cgi-bin/gretldata.cgi%3Fopt%3DSHOW_FUNCS& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&contributed function packages&i class=&icon-external&&&/i&&/a&, written in hansl&/p&&/li&&li&&p&Facilities for easy exchange of data and results with &a href=&///?target=http%3A//gretl.sourceforge.net/gretl_and_R.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GNU R&i class=&icon-external&&&/i&&/a&, &a href=&///?target=http%3A//www.gnu.org/software/octave& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GNU Octave&i class=&icon-external&&&/i&&/a&, &a href=&///?target=https%3A//www.python.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Python&i class=&icon-external&&&/i&&/a&, &a href=&///?target=http%3A///& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Ox&i class=&icon-external&&&/i&&/a& and &a href=&///?target=http%3A///& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Stata&i class=&icon-external&&&/i&&/a&&/p&&/li&&/ul&&/blockquote&几个亮点:&br&&ol&&li&有图形界面&/li&&li&在时间序列数据、横截面数据以及面板数据上,似乎没有短板&/li&&li&可以生成latex文件&/li&&li&可以画图&/li&&li&可以读取stata、spss、Eviews、SAS等多种软件的数据&/li&&li&开源&/li&&/ol&迫不及待的我马上去下载了,并且试用了一下,简单的说,很有潜力,但是问题不小。&br&&br&首先我们来看一下图形界面。这玩意长这样:&br&&img src=&/9a7f826bbb7faec8055a06_b.png& data-rawwidth=&846& data-rawheight=&638& class=&origin_image zh-lightbox-thumb& width=&846& data-original=&/9a7f826bbb7faec8055a06_r.png&&可以说,是非常……丑的!&br&&br&当然,要看跟谁比,跟stata这种商业软件自然不能比,但是在GNU软件里面,有图形界面就已经非常感谢这些无私的奉献者了!&br&&br&大体扫一下菜单栏,跟stata差不多,也是画图、统计量什么的,看了一下,似乎功能还可以。&br&&br&我们用例子来看看这家伙的功能吧。软件自动带了一些数据集,比如Greene的数据集,还是挺厚道的。打开来看到的第一个就是研究动态面板的经典Arellano and Bond (1991)的数据集,就用这个试一下吧。&br&&br&&img src=&/68f1c37f5d6f01f9dc6d481abe2d15c5_b.png& data-rawwidth=&414& data-rawheight=&686& class=&content_image& width=&414&&图形截面跟Stata差不多,非常容易理解。点Ok,毕竟是用C写出来的,没眨眼就出结果了:&br&&img src=&/608d0cfd5dbb79cb24172c40_b.png& data-rawwidth=&547& data-rawheight=&503& class=&origin_image zh-lightbox-thumb& width=&547& data-original=&/608d0cfd5dbb79cb24172c40_r.png&&恩恩,看起来不错的吗!速度快,报告的统计量也比较全面,比如Sargan test, test for AR...都报告了。&br&&br&那么生成的latex怎么样呢?我又随手做了一个工具变量回归,生成latex,生产pdf,结果这货做出来的是这样:&br&&img src=&/e76b1a19a4cbc217c8b19_b.png& data-rawwidth=&734& data-rawheight=&673& class=&origin_image zh-lightbox-thumb& width=&734& data-original=&/e76b1a19a4cbc217c8b19_r.png&&奥。。我本来以为是跟outreg2报告出来的东西一样呢,结果是这熊样,还是得自己手动整理。。不过有就很不错了。&br&&br&另外,弱工具的检验,其实是有报告critical value的,但是不知道为什么,latex没导出来:&br&&img src=&/fcb0ac39e_b.png& data-rawwidth=&502& data-rawheight=&164& class=&origin_image zh-lightbox-thumb& width=&502& data-original=&/fcb0ac39e_r.png&&&br&那么数据方面呢?我随手导入了一个stata数据,导入的过程中提示要不要声明数据为时间序列数据或者面板数据,选择是,面板数据,gretl自动识别除了id 和time变量,还挺方便的。而且stata的标签也顺带导入了,对中文支持完全没有问题:&br&&img src=&/a8efde1ead29d0e749333c_b.png& data-rawwidth=&460& data-rawheight=&251& class=&origin_image zh-lightbox-thumb& width=&460& data-original=&/a8efde1ead29d0e749333c_r.png&&另外,gretl里面应该是没有字符型数据的,所有的字符型数据自动转化成1 2 3 4...这样。另外,数据浏览器有点卡顿,虽然数据量不大。&br&&br&那么画图怎么样呢?我们来试一下:&br&&img src=&/42ee2c39f38dca9cc279ed_b.png& data-rawwidth=&633& data-rawheight=&531& class=&origin_image zh-lightbox-thumb& width=&633& data-original=&/42ee2c39f38dca9cc279ed_r.png&&&img src=&/33d5742cda75e930fabebad_b.png& data-rawwidth=&675& data-rawheight=&564& class=&origin_image zh-lightbox-thumb& width=&675& data-original=&/33d5742cda75e930fabebad_r.png&&&br&略丑,浓浓的理工科风格,不过也难怪,GNUPlot画出来的。其实在菜单操作中,我并没有看到对画图太多的控制选项,所以画图功能实际上是比较弱的。&br&&br&那么编程能力怎么样呢?看到了上面有GMM,我现学现卖,写了各GMM估计Box-Cox模型的简单程序。这个程序比较变态在于,当其中的lambda=0/1的时候,numerical上的计算比较坑爹,我来看看这家伙的表现。&br&&br&程序还是很简单的,如下:&br&&div class=&highlight&&&pre&&code class=&language-bash&&&span class=&c&&# create an empty data set&/span&
nulldata 1000
&span class=&c&&# fix a random seed&/span&
&span class=&nb&&set &/span&seed
&span class=&c&&#generate a gamma random variable&/span&
series &span class=&nv&&x&/span& &span class=&o&&=&/span& randgen&span class=&o&&(&/span&G, 1,1&span class=&o&&)&/span&
series &span class=&nv&&x2&/span&&span class=&o&&=&/span&x^2
&span class=&c&&#true parameters&/span&
scalar &span class=&nv&&lambda&/span&&span class=&o&&=&/span&0.5
scalar &span class=&nv&&beta&/span&&span class=&o&&=&/span&1
scalar &span class=&nv&&gamma&/span&&span class=&o&&=&/span&1
&span class=&c&&#generate u and y&/span&
series &span class=&nv&&u&/span&&span class=&o&&=&/span&randgen&span class=&o&&(&/span&N,0,0.7&span class=&o&&)&/span&
series &span class=&nv&&y&/span& &span class=&o&&=&/span& &span class=&o&&(&/span&lambda*&span class=&o&&(&/span&gamma+x*beta+u&span class=&o&&))&/span&^&span class=&o&&(&/span&1/&span class=&o&&(&/span&1-lambda&span class=&o&&))&/span&
&span class=&c&&#series y=1+x*beta+u&/span&
&span class=&c&&#create the weight matrix as the identity matrix&/span&
matrix &span class=&nv&&W&/span& &span class=&o&&=&/span& I&span class=&o&&(&/span&3&span class=&o&&)&/span&
&span class=&c&&#declare the series to be used in the orthogonality conditions&/span&
series &span class=&nv&&e&/span& &span class=&o&&=&/span& 0
&span class=&c&&#initial guess&/span&
scalar &span class=&nv&&l&/span&&span class=&o&&=&/span&0.3
scalar &span class=&nv&&b&/span&&span class=&o&&=&/span&0.5
scalar &span class=&nv&&g&/span&&span class=&o&&=&/span&0
smpl y&0 --restrict
series &span class=&nv&&e&/span&&span class=&o&&=(&/span&y^&span class=&o&&(&/span&1-l&span class=&o&&)&/span&/l&span class=&o&&)&/span&-x*b-g
&span class=&c&&#series e=y-x*b-l*x2-g&/span&
orthog e&span class=&p&&;&/span& const
orthog e&span class=&p&&;&/span& x
orthog e&span class=&p&&;&/span& x2
params l b g
end gmm --iterate
&/code&&/pre&&/div&我先做了个蛋疼的GMM估计线性模型,当然完全没有问题。然后换成Box-Cox模型,就出问题了。比如当我把初始点设置的比较靠近真值,l=0.6, b=0.8, g=0.8,那么可以得到正确结果:&br&&img src=&/0d15eaaaec5bd39c2a82b_b.png& data-rawwidth=&487& data-rawheight=&244& class=&origin_image zh-lightbox-thumb& width=&487& data-original=&/0d15eaaaec5bd39c2a82b_r.png&&值得注意的有这么几点:&br&&ol&&li&即便iterate算GMM,样本量加到10000,点下鼠标不到一秒钟还是给出了结果,速度看来非常不错。&/li&&li&自动给出了standard error,而我并没有给出GMM目标函数的一阶条件,非常方便。&/li&&li&从报告的结果上来看,猜测应该是使用了数值微分的BFGS算法,standard error肯定也是数值微分计算出来的。&/li&&/ol&当然,故事还没有讲完。如果我按照上面程序给出的初始值计算的话,得到的结果是。。。没有结果,不收敛。如果把iterate去掉,直接的到了如下结果:&br&&img src=&/9e994ca3a3_b.png& data-rawwidth=&561& data-rawheight=&248& class=&origin_image zh-lightbox-thumb& width=&561& data-original=&/9e994ca3a3_r.png&&成功的陷入了Box-Cox变换的陷阱。&br&&br&当然,以上的GMM估计Box-Cox回归本来结果就很差,怪不得gretl。不过这里还是提了个醒,global minimum的问题还是很严峻的。&br&&br&gretl的手册上提供了一个asset pricing的GMM实例,短短几行程序,真的还是非常方便的。&br&&br&另外就是报错了。其实gretl程序的报错还是很不错的,只是中间程序写的不好碰到了几次闪退的情况,软件的稳定性还有待加强。&br&&br&既然是开源的,那么最好的学习办法当然是把源码下载下来好好研究一下。这个任务就比较重了,不过从源码的configure文件来看,线性代数方面是依赖于LAPACK的,而没有找到关于最优化方面的包,猜测难道是手写最优化?&br&&br&我为什么关心呢?因为我已经心动了,打算在自己能力范围内,尽量为开源社区做点贡献,特别是我们自己工作的研究领域和计量方法。&br&&br&总结一下吧。&br&&br&优点:&br&&ol&&li&容易上手,有图形界面,跟stata一样容易入门。&/li&&li&有比较优美的语法,在语法上个人认为完爆stata。&/li&&li&速度很快。&/li&&li&开源。甚至可以考虑在大体看懂了源码之后,写Python/Julia/R/C的项目直接调用gretl的程序,省下了很多烦恼。&/li&&li&对截面、时序、面板数据的全方位支持,在这三方面的模型基本上已经能够满足日常需求。&/li&&/ol&缺点:&br&&ol&&li&在界面美观、图的美观程度方面需要继续努力。&/li&&li&数据管理方面不如SAS、Stata。&/li&&li&导出的结果比较难看。&/li&&li&似乎没有成熟的包管理器。比如Stata有ssc install,而至少现在gretl上没发现,扩展性略差。&/li&&li&还不是很稳定。&/li&&/ol&个人感觉,如果能够发展的好,解决上面的一些缺点,有朝一日替代Stata也不是没有可能。&br&&br&最后,仅仅是一问,有没有志同道合的朋友,懂C又懂计量的,业余时间可以一起为这个软件贡献点自己的力量。
谢邀。 感谢题主告诉我居然还有这么好的东西,我以前根本不知道! ubuntu上试了一下,可以直接apt-get install gretl安装,略惊讶,要知道julia 都没这个待遇。上手试了一下,very impressive。 我们先来看一下这个软件的介绍: FeaturesEasy intuitive int…
简单回答题主的问题,如果编程零基础,建议以python入门,但是并不建议以此作为数据分析的全部。R可以说是必须要学的,除此两者以外的,可以泛泛的关注。&br&=================================分割线=================================&br&下面详细说一下自己的看法,仅仅是个人体会,仅供题主参考。&br&首先要说的是R,绝对是目前国外学术界的主流,统计系基本除R以外没有其他了,计量作为和统计相关的方向,R也在逐渐渗透。所以推荐题主学习。&br&顺便说一句,R的学习曲线是比较陡峭的,所以我不太建议零基础的人从R开始,否则挫折感会比较强烈。而python会略好,所以我建议从python开始。&br&&br&python并非是专用于统计或者计量的软件,而是一种非常流行的通用编程语言。经过多年发展,库也非常齐备。我试用过numpy,scipy和pandas等库,与其他通用编程语言相比,算是相当好用,不过个人感觉还是比不上R,比如画图,ggplot2真心是神一般的存在,python的库还是略逊一筹。&br&但是,如楼上各位所说,除了数据处理之外,python可以干的事情太多了,也太牛了。我们主要要用到的,比如网页采集数据,解析网页等等。这些方面python就比R有优势多了。&br&当然,从趋势来看,未来似乎python比R更优。R是一群统计学家在编程序,python是一群计算机专家在争取搞数据处理。似乎python的基础更扎实。个人观点,仅供参考。&br&&br&stata我认为是除了R以外最好的计量软件了,我两者均用过数年数个项目,但是依然感觉R更好用,整理和处理数据更方便。所以即使在楼上诸位所提到的微观计量领域,我依然更喜欢R。&br&除此以外spss,或者eviews等,感觉管理类学生用的更多,功能比较受限,不太推荐。这里不赘述。&br&上述的几个软件,还有个问题,在于都是收费的,考虑到未来知识产权的保护,还是用免费的略靠谱。&br&&br&R的主要缺点有两个:&br&1,面对大数据乏力。这方面sas确实有优势,但是不得不说,sas的语法太反人类了,完全接受不能。面对这个问题,我要说的是,你得看问题有多大。以我的经验,经济里面的数据量似乎还不足以超过R的处理上限很多。可能金融的高频数据会比较大,我个人没啥经验,如果遇到再补充。我尝试过10g的数据,最简单的办法,不是学sas,而是买16g的内存。:)以现在的内存价格,我觉得32g以下的问题不大。&br&2,性能不足。这方面python也有同样的问题,最好的解决方案是混合c/c++,不过这个就是无底洞了,耗时极多,都不见得能学好。建议的方法,还是买硬件,这个最简单。:)当然用并行包等,也是解决方法之一,我尝试过几次用机房的多台机器做集群,不是太成功。求高人指点。&br&&br&上面诸位还提到过几个软件,我也略微说一下自己知道的一些软件的看法:&br&matlab:好东西,关键还是性能问题,同样可以靠c/c++来解决。但是我不喜欢比较大的软件,为了求个均值方差,等它启动就占了5分钟。。。&br&julia:好东西X2,目前关注中,可能还比较年轻,导致配套的库略少,不过看好未来发展,主要是吸取了matlab,python和c/c++的有点,写的快,运算的也快,未来看涨,紧密关注。
简单回答题主的问题,如果编程零基础,建议以python入门,但是并不建议以此作为数据分析的全部。R可以说是必须要学的,除此两者以外的,可以泛泛的关注。 =================================分割线================================= 下面详细说一下自己的…
如果你想成为一名优秀的学者,而非完成学期作业的本科生,那么请继续往下看。&br&&br&最好的方法,是自己拥有独有的数据集。包括但不限于自己安排田野调查、电子化没人用过的历史方志年鉴、爬虫获得网络上的数据等。&br&&br&次好的方法,对学生来说,是进入一个好学校,找到一个好老板,从老板那里拿数据;对已经入行的人来说,可以找到有数据的人并与他们合作。&br&&br&花时间申请公开数据,在已经被做滥的数据里翻找别人没做过的问题,或者是在别人已经研究过的问题上用新的数据做一点边际上的贡献,是最没效率的办法。&br&&br&如果你想要做出能发表在 一流期刊上的研究,那最好别指望CHNS、CHIPs、CFPS、CHFS、CGSS、CHARLs……这一类公开可得的数据能被你挖掘出什么东西来了,98到07的微观企业数据库也别报太大希望,淘宝上都有人卖呢。&br&&br&用那些数据写一点简单的报告,或者在知乎上答答题,估计是没问题,但如果要冲刺顶尖刊物,还是用一些别的数据吧,比如05、10人口普查全样本,历年全国流动人口动态监测,85年到09年甚至12年城调队数据全样本,96到10农村固定观察点全样本,04年08年经济普查、历年海关数据以及他们的合并数据。这些数据分布在国内各大院校手中,每一个数据我都至少能随口说出两三个拥有他的人。这些非公开可得的数据并不是遥不可及的,只要有心,有足够的行动力,就一定能拿到。&br&&br&如果手里实在只有那些大众数据,那最好去找一些国外数据来做些基准,至少提高下门槛吧。比如美国的PSID、CPS、SCF、NSFG,欧洲的HFCS,都很容易申请。如果做贸易,就别用nber公布的那50年comtrade了,自己把comtrade下载下来再按照feenstra的文章整理成nber那样,一点都不难。如果手里只有00年人口普查,那至少可以去ipums找点82和90的普查做纵向比较,或者也可以找点别的国家做横向比较啊。&br&&br&如果这些都不愿意,就不要做实证研究了。
如果你想成为一名优秀的学者,而非完成学期作业的本科生,那么请继续往下看。 最好的方法,是自己拥有独有的数据集。包括但不限于自己安排田野调查、电子化没人用过的历史方志年鉴、爬虫获得网络上的数据等。 次好的方法,对学生来说,是进入一个好学校,找…
&p&我只能说央行的模型,我对这个最熟悉。&/p&&p&一般来说央行要用几个主打的巨无霸级别的模型,然后无数个小型模型。&/p&&p&&b&现在央行用的巨无霸级别的模型叫DSGE,动态随机一般均衡模型,&/b&这个模型的思想是新凯恩斯主义下对几十年前的老一代宏观经济学的增强。简单来说,这个模型就是一个差分方程组系统,而且是非线性的,意思就是说非常难解,因为找不出稳定解,就不能做simulation,那么这样的模型拿来没用,没法跟政府高层沟通。&/p&&p&我以前在的芬兰央行就有几个这样的巨型模型,每次参数估计都要送给2000多台最高配置的主机同时进行计算,快的时候几小时拿结果,慢的时候要等个几周。&/p&&p&其次用的多的还有CGE,C是computing的意思,这种模型其实更加巨大,但是模型的宏观基础并不受经济学家喜欢,所以不常用,很多拿来当摆设。&/p&&p&其他超小模型那就多了,但一般都是用SVAR,因为央行不是统计局,做的模型都要理论基础,所以都要加一个经济结构在模型里面,所以才叫做Structural VAR。这些模型几乎每周都在做,央行领导一般对什么问题想要个解释,就会找到下面的研究部门马上做个小模型解释一下。&/p&&p&说实话,解释精度都非常差。原因很多,但最大的原因在于模型对想描述的世界提炼出了错误信息(比如加入了错误的变量,参数设置错误等)。&/p&&p&贝叶斯统计学有句话:&b&所有模型都是错的&/b&。&/p&
我只能说央行的模型,我对这个最熟悉。一般来说央行要用几个主打的巨无霸级别的模型,然后无数个小型模型。现在央行用的巨无霸级别的模型叫DSGE,动态随机一般均衡模型,这个模型的思想是新凯恩斯主义下对几十年前的老一代宏观经济学的增强。简单来说,这个…
&p&经济情况瞬息万变,预测一个具体经济指标的具体数值非常难,但尝试在某个指数公布前获知他的趋势,还是有办法做到的。&/p&&p&&b&&u&第一种方法&/u&&/b&是为一些指标找到一些公开的「先行指数」,这个指标的&b&&u&发布时间&/u&&/b&要早于你想要预测的指标。比如在这个问题里面所论述的&a href=&/question/& class=&internal&&什么是经济数据中的先行指标、同步指标和滞后指标?如何判断? - 知乎&/a&,用统计方法或者在经济逻辑上找到一些理论上领先的指标。&/p&&p&这样的先行指数又有两种。&/p&&p&&b&第一种先行指数&/b&是信心、预期类的先行指数。比如长短利差就属于预期类的一种先行指数,他代表市场对资本市场的一种看法,而这样的看法恰好对未来有着很强的预测作用。&/p&&p&但信心、预期类的先行指数有个毛病,当市场有效时,这样的指数可能会导致人们变化自己的行为,来规避经济变化会造成的影响,这样的行为最后使得这样的先行指数对经济的悲观/乐观预期无法实现。&/p&&p&一个简单的例子,一国的央行想要刺激经济,于是实施了扩张的货币政策。&/p&&p&在市场不够有效时,各种要素的流动都存在粘性,于是在实际的通货膨胀发生之前,刺激性的政策可能会增加就业,刺激产出。&/p&&p&但如果市场有效,人们立刻发现了央行的扩张性货币政策,并立刻将自己的劳动供给、消费行为根据预期到的通货膨胀来进行调整,货币政策的刺激作用就消失了——最终的结果是,产出和就业毫无变化,只有通货膨胀率提高了。利率、价格类的指数都容易碰到这样的问题。&/p&&p&&br&&/p&&p&&b&第二种先行指数&/b&是经济逻辑相关的先行指数。比如订单、物流一般发生在利润实现之前,那么例如PMI里的订单指数、一些物流行业发布的物流指数,就成了GDP的较好先行指标。如果再做得细一点,挖掘机开工一般代表基础建设正在进行,那么挖掘机指数就成了固定资产投资的先行指数;白手套产量,润滑油产量一般来说和工业生产息息相关,于是就有了白手套指数、润滑油指数等等,他们都是工业增加值的较好先行指标。&/p&&p&这些指数不会碰到信心、预期类指数碰到的问题,拿到了订单得生产,有了挖掘机得开工,逻辑在这里。但是这一类先行指数也有自己的问题。&/p&&p&首先,我们会发现这类指数非常难找。比如挖掘机和固定资产投资,肯定是先行吧,但你找得到吗?我们知道有一个指数叫做「XX挖掘机指数」,说的是挖掘机传感器传回的开工情况,非常有用,可这个指数普通投资者一概是看不到的,似乎是直送国务院。普通投资者们,只能看到挖掘机当月产量,这个数字混在工业主要产品产量中,和工业增加值在下个月的第三个星期一一块儿发布,说他是领先指标,一来领先不到哪儿去,二来也只能看个固定资产投资的大概趋势,解释力远低于挖掘机运作指数。&/p&&p&此外,这两种公开发布的先行指数都会碰到&b&一个共有的问题&/b&,当一个先行指数的预测能力特别好时,人人都关注他,这个数据可能就会受到一些其他因素的影响了。比如是信心的提前实现——比如货币政策;或者是数据准确性受到影响——比如克强指数的失效,都是高关注度数据失效的例子。&/p&&p&而且,对于投资者来说,如果我们相信市场有效,那公开发布的指数,能派上用场吗?显然不能了。只要是公开发布的数据,不管你用多复杂的模型去算他,时间序列,向量自回归,结果都是一样的。&/p&&p&&br&&/p&&p&因此,也就产生了&b&&u&第二种方法&/u&——自己去观察经济正在发生什么事,在体现这些经济活动的数据出现之前,找到这样的经济活动,观察,并用数据衡量他。&/b&&/p&&p&比如石油产量,油价变动,是很重要的指标,怎么预测?用各种经济数据拟合、回归,看需求趋势,供给趋势,然后判断出一个区间,是一种方法。但显然有另一种更直观的方法,那就是去每一个油田观测他们的产量。而用卫星照片数据,去观察大量油井的动向,一些投资者已经达成了预测石油产量和价格的目标。&/p&&p&这种方法非常的直观,而且,在该方法没有被广泛使用之前,不太会有对手让油田假造产油行为让卫星拍到来反向套利,因此也比较可信。&/p&&p&我们也尝试了类似的一种方法。去年3月,我曾写过一篇文章,&a href=&/p/& class=&internal&&新经济指数--用大数据倾听中国未来 - 知乎专栏&/a&,其实就是使用了这种方法,用各类体现经济活动的大数据,来判断经济体的运行状况。&/p&&p&目前新经济指数运行得还不错,由于基础数据完整,因此呈现的信息量很大,而且对经济也有自己独特的预测、解释能力,大家也可以在Bloomberg上看到它的每月变化了。这里我不重复新经济指数的介绍,大家可以直接在网上搜索,这里主要想说的是在计算新经济指数时,我们做的一个小实验。&/p&&p&例如,投资者们一般会去关注每个月的固定}

我要回帖

更多关于 treatment 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信