CSDN求大佬帮忙表情图下载 https://download.csdn.net/download/lhk147852369/10407389

点击联系发帖人 时间：2018-08-25 14:12

求大佬帮忙表情图

机器学习的教训：5家公司分享的錯误经验

机器学习也可能会出现严重的问题以至于可能会让你后悔当初如此匆忙地采用它。

机器学习是当下的热门技术之一许多业务囷技术高管都在争相了解他们的组织可以如何参与其中。如果操作得当机器学习可以帮助您创建更有效的销售和营销活动，改进财务模型更轻松地检测欺诈，提高设备的预测性维护好处不一而足。

但是机器学习也可能会出严重的错误让你悔不该当初。根据采用机器學习的公司的实际经验这里有五种机器学习可能出错的方式。他们分享了他们的经验希望你可以吸取经验以避免同样的失败。

教训1:错誤的假设使机器学习偏离了轨道

Projector PSA是美国一家设计和制造专业服务自动化软件的公司并帮助咨询公司经营业务。当它试图用机器学习来预測人员配置计划的差异时它惨痛地吸取了这一教训。

因为咨询公司里面都是专业的、训练有素的顾问能有效地利用他们的才能，所以公司经常需要雇佣项目经理来评估和预测他们项目的人员需求

然后，他们跟踪顾问花在每个项目上的时间以便向客户收取费用。如果組织在单一系统(例如专业的服务自动化工具)中同时管理这两项活动则有一些明显的优势，例如能够将预测与实际时间进行比较从而了解不同的项目经理在规划方面的准确性。

Projector PSA的首席运营官Steve Chong回忆说该公司与一位客户开始了一项研究，该客户雇佣了数百名的项目经理它建立的模型比较了在不断增加的规划范围内实际工作的平均小时数与预测小时数之间的差异。它还在几个月的时间里研究了项目经理预测嘚一致性以及可变性

也就是说，如果在一周内预测过高而在下一周预测过低(高可变性)，Projector PSA希望知道这两者是否能够相互抵消让预测的岼均值差异很小，或者说方差很小

“最初的前提是低方差和低可变性是好的，而高方差和高可变性是坏的”Chong说。基于这一前提Projector PSA实现叻一种机器学习算法，将项目经理分为不同的群体比如“囤积者”和“乐观主义者”，基于这些数据该算法使用公司项目经理的样本莋为训练集。

然后公司让机器学习算法根据学到的知识对剩下的项目经理进行分类。事实证明它将一些公司最有经验和受过良好培训嘚项目经理列为了最糟糕的违规者，因为他们具有高的方差和高的可变性

他说:“事实上，这些项目经理是公司能够针对那些已经陷入困境的项目提出解决方案的人他们希望这些项目能够得到控制。”

类似地最初的机器学习算法对一个项目经理的评价很高，因为她的方差和可变性几乎为零但事实证明，她将预测的时间发送给她的团队隐含着一种期望，即他们会将这些时间报告为他们实际工作的时间Chong表示，这导致了她从未超出预算或出现预算不足的局面但这样做实际上鼓励了她的团队以不利于大局的方式行事。

“这些错误不是机器学习算法本身造成的而是我们最初训练它们时的假设造成的，”Chong说“它们只是还原了完全依赖于数据而没有充分了解数据所代表的現实。”

一旦该公司训练其机器学习算法识别了这些新的配置文件它就会觉得它能更好地反映现实。

教训2:无监督的机器学习可能会有意想不到的偏差

虽然许多任务可以通过机器学习来完成但是因为有些情况在项目开始时并没有被考虑到，从而导致机器学习产生了错误的結果这就是巴西金融服务公司Mejor Trato的遭遇，该公司将机器学习作为人力资源部门数字化转型的一部分

该项目涉及让潜在的新员工通过实时聊天和使用公司内部开发的机器学习聊天机器人来回答一系列问题。

最初使用聊天机器人时出现了两个关键问题一个是要求求职者填写叻错误的个人资料/职业表格。另一个问题是给出了与人力资源员工会议重叠的面试时间，这意味着人力资源员工无法根据需要监控聊天機器人

CTO Cristian Rennella表示，在最初几周HR团队中的一些人需要对每一次对话进行监控，以便在必要时纠正机器人这一点至关重要。“我们犯了一个錯误以为一切都解决了，没有监督就离开了聊天机器人”她说。教训是“不要忘记在几个月内持续监控聊天机器人的全职工作”

由於没有对聊天机器人进行微调，该公司断定收集到的数据中有10%是错误的。

Rennella说:“机器学习在一开始可能会对90%的答案有用但是剩下的10%应该甴人工监督来修正算法。”随着时间的推移可用性将从90%增加到99%，“但我们不能停止关注可能出现的偏差甚至新情况当我们开始这个项目时，这是出乎意料的”她说。

教训3:糟糕的数据标注会损害机器学习的结果

俄罗斯的两家关联公司Ashmanov神经网络和SOVA(智能开放式虚拟助理)在为其商业客户开发基于机器学习的产品其内容包括了视频分析、自然语言处理、信号处理和神经网络。

两家公司的首席执行官Stanislav Ashmanov表示公司茬机器学习方面遇到的最大问题之一是基于标签难度的糟糕数据。 “提供高质量的数据标签是非常困难的”Ashmanov说。“通常情况下从事数據标识工作的人都很草率，因为他们经常只是匆忙地工作着更重要的是，以一种每个人都能以同样的方式和理解任务的方式来传递任务昰非常困难的”

因此，这些数据可能包含多个标记的样本比如图片中错误识别的轮廓，这些样本对训练后的神经网络的性能多少产生叻一些影响

在短时间内收集所需的大量数据也很有挑战性。Ashmanov说数据收集可能需要几个月的时间。此外从公开渠道收集的数据，比如茬互联网上找到的数据并不总是能够准确地反映现实。例如在工作室或实验室拍摄的照片可能与现实生活中的街景或工厂生产单元快照截然不同。结果这样训练出的神经网络的性能会很低。

作为客户项目的一部分当公司训练神经网络来识别在线自拍中的眼镜时，就絀现了一个可能出错的例子他们从社交媒体上收集了一些照片并贴上标签。Ashmanov说神经网络的表现质量很低，因为它把眼睛下面有黑眼圈嘚人误认为戴着眼镜

另一个客户提交了一个城市的两幅卫星图像。任务是在图像中标记汽车并教神经网络识别它们并计算它们的近似數量。在这个例子中问题是神经网络将建筑屋顶上的壁架也识别为汽车，因为它们在外观上相似——它们都是小的、矩形的而且大多昰深色的。

“这一切都取决于对特殊案例的仔细研究创建启发式方法，以及改进初步数据处理和后处理证明检查”Ashmanov说。

教训4:过于细微嘚分类问题可能会混淆机器学习

Casepoint是美国一家为法律行业和其他市场提供电子发现技术的公司它也经历了机器学习算法的缺陷问题。该公司使用机器学习来进行文档分类和预测分析通过使用这项技术，法律团队可以大大减少审查和分类文件的时间

首席战略官David Carns表示，利用機器学习对文件进行分类是有效的但并非完美无缺。该公司发现的一个弱点是人们会过度依赖机器学习来解决微妙、复杂的分类问题。

例如在法律领域，机器学习文档分类器经常用于识别响应“生成文档请求”的文档甲方要求提供与特定主题或内容相关的文档，乙方可以使用机器学习文档分类器进行分类来帮助筛选文档存储库以获取响应文档

Carns说，这种方法非常有效律师已经开始定期使用这种技術来辅助审查(TAR)文件。“这种成功导致人们希望能够盲目地使用机器学习文档分类器来进行更细微的分类例如识别受律师-客户特权保护的攵档，”他说

虽然使用机器学习对文档分类器进行特权文档内容的训练很容易，但是如何使文档具有合法特权在很大程度上取决于文档嘚受众、保密性、接收时间以及与法律咨询或诉讼的关系Carns说，大多数机器学习文档分类器无法对这些额外的上下文线索进行充分分类

Carns說:“这并不意味着机器学习文档分类器不能帮助对潜在的特权文档进行选择和分类。但法律专业人士不应仅仅依靠机器学习来确定特权”他说，如今人类律师需要手动审查潜在的特权文件，以便最终决定是否适用法律特权

教训5:测试/训练数据的污染可能会影响机器学习

媄国自动化公司Indico多年来一直在为客户提供企业人工智能和深度学习服务，它不断遇到的最大问题之一是机器学习测试和训练数据的污染

CTO Slater Victoroff說，一个客户正在创建一个模型来确定一条新闻是否会影响其股价由于很难准确地确定影响时间，所以公司创建了一个模型来预测第二忝的影响

“他们没有意识到的是，他们忽略了确保测试/训练数据完全分开的数据科学基础”Victoroff说。“因此在预测第二天的影响方面，怹们给出了接近100%的准确率而实际上，这个模型并不会比随机的模型更好”

另一次体验则涉及到一名客户查看其内部自然语言处理( NLP )系统。客户有一个团队多年来一直在为机器学习模型创建和更新功能，并根据同一组搜索结果不断测试这些功能该团队也经历了测试/训练數据污染的影响。Victoroff说:“如果你看到你的测试错误就改变你的算法来改进你的测试错误你的数字就不再准确了。”

在一些特殊情况下人們对该问题的理解往往不足。在内部该模型对于特定任务实现了接近100%的准确性。“但在生产过程中该系统往往无法正常运行，因为他們无意中污染了他们的结果”Victoroff说。“任何组织在机器学习中最关键的错误都是测试/训练数据的污染问题”

}

批梯度下降时每一次迭代代价函数都会降低（如果某一次不是，说明出问题了可能要改变学习率），而mini-batch梯度下降时不一定每次都降低，但是总的趋势是下降的；
Mini-batch的夶小设为m（总样本数）时变成了batch梯度下降（训练慢当样本总数大时），当设为1变成了随机梯度下降（这时没能很好利用多样本的向量囮的优势，也会导致变慢）所示实际中选择不大不小的mini-batch尺寸，下降速度达到最快；
不管是随机梯度下降还是mini-batch梯度下降都不会达到收敛所以后期需要减小学习率来使其趋向收敛；
当样本数小于2000时可直接使用batch梯度下降，当样本数很大时一般把mini-batch的大小设为2的n次方，比如64,126,512等這样是考虑到电脑内存设置和使用方法；
在调参mini-batch的大小时常常设置2的不同次方。

$\begin{matrix} \end{matrix}$

vt是迭代得到的最初令其为0，一步步迭代计算但最后是┅种平均数，我们用这种平均数来代替θ可以认为我们由原来以往变化趋势乘以一个权重β，和当下的变化乘权重1?β这样可以两者の和表现出一部分现在的变化，同时也更表现出了以往的一种应该发展的趋势；
指数加权平局数公式的好处之一：它只占用极少的内存電脑内存只占一行数字而已，不断的覆盖就可以了当然它不是最好的，也不是最精确的如果要计算移动窗，可以直接计算过去10天或者50忝的和再除以10或者50就好，如此往往得到更好的估测但缺点是，必须占用更多的内存执行更加复杂；
指数加权平均的求解过程实际上昰一个递推的过程，那么这样就会有一个非常大的好处每当我要求从0到某一时刻（n）的平均值的时候，我并不需要像普通求解平均值的莋为保留所有的时刻值，类和然后除以n而是只需要保留0-(n-1)时刻的平均值和n时刻的温度值即可。也就是每次只需要保留常数值然后进行運算即可，这对于深度学习中的海量数据来说是一个很好的减少内存和空间的做法；
指数加权平均数的偏差修正，即按照之前的公式算絀 $\begin{matrix} \frac{}{} \end{matrix}$

momentum梯度下降总是会比标准的梯度下降要快基本的想法是，计算梯度的指数加权平均数并利用该梯度更新权重：
假如将算法的优化比作尛球从山上下降的过程，那么梯度下降方法就像是小球每次在某一个位置先找到眼下坡度最陡峭的地方然后从那里下降，之后到达新的位置速度减为零，重新寻找最陡峭的地方如此以往到达最底部。而动量法则是每次保留上次下降时的速度然后在新的位置，寻找到朂陡峭的地方结合上次的速度下降。所以动量法在梯度下降的基础上累计了之前梯度方向的衰减值并且结合累计的梯度方向和新计算嘚梯度方向共同决定下一步的移动方向，与经典的梯度下降算法不同的是动量法更倾向于保持在相同方向上前进，以防止震荡的产生；
梯度下降算法每次迭代就重新计算梯度方向并沿着新的梯度方向下降，而动量法则是在上一次梯度的基础上进行修正得到新的下降方姠，需要指出的是动量法在一定程度上克服了海森矩阵的病态问题；
是否进行偏差修正影响不大β取0.9是一个比较好的参数，学习率α会随之β的修改做一定的修改；
当本次梯度下降的方向与上次更新量的方向相同时上次的更新量能够对本次的搜索起到一个正向加速的作用，当本次梯度下降的方向与上次更新量的方向相反时上次的更新量能够对本次的搜索起到一个减速的作用。

RMSprop 算法采用移动平均以指数衰减的速度丢弃遥远的历史梯度，可以削弱某些维度梯度更新波动较大的情况：
同时引入了一个新的超参数β用于移动平均，一般设为0.9RMSprop将微分项进行平方，然后使用平方根进行梯度更新同时为了确保算法不会除以0，平方根分母中在实际使用会加入一个很小的值

参数更噺的时候注意此时一般的

0 0 0

在低维（如二维）可能陷入局部最优；
但是在高维中，比如20000维陷入局部最优的概率是2?20000（即每一维度都梯度為零，几乎不可能）所以更多的时候是出现处在鞍点上；
存在的问题是：在平稳端学习缓慢，上面提到的算法如Adam,能够更快的走出平稳区

}

51无线网