原标题:大数据分析模型建模伱需要了解九大形式
业务目标是所有数据分析模型解决方案的源头
它定义了数据分析模型挖掘的主题:数据分析模型挖掘关注解决业务业問题和实现业务目标。数据分析模型挖掘主要不是一种技术而是一个过程,业务目标是它的的核心 没有业务目标,没有数据分析模型挖掘因此这个准则也可以说成:数据分析模型挖掘是业务过程。
业务知识是数据分析模型挖掘过程每一步的核心
这里定义了数据分析模型挖掘过程的一个关键特征
为了方便理解,用CRISP-DM阶段来说明:
商业理解必须基于业务知识所以数据分析模型挖掘目标必须是业务目标的映射;
数据分析模型预处理就是利用业务知识来塑造数据分析模型,使得业务问题可以被提出和解答;
建模是使用数据分析模型挖掘算法创建預测模型同时解释模型和业务目标的特点,也就是说理解它们之间的业务相关性;
评估是模型对理解业务的影响;
实施是将数据分析模型挖掘结果作用于业务过程;
数据分析模型仅能表示现实的一 部分;数据分析模型和现实世界是有差距的在数据分析模型挖掘中,业务知识来弥補这一差距在数据分析模型中无论发现什么,只有使用业务知识解释才能显示其重要性数据分析模型中的任何遗漏必须通过业务知识彌补。
数据分析模型预处理比数据分析模型挖掘其他任何一个过程都重要
数据分析模型挖掘项目中最费力的事是数据分析模型获取和预处悝非正式估计,其占用项目的时间为50%-80%经常采用自动化减轻这个“问题”的数据分析模型获取、数据分析模型清理、数据分析模型转换等数据分析模型预处理各部分的工作量。
数据分析模型预处理的目的是把数据分析模型挖掘问题转化为格式化的数据分析模型使得分析技术(如数据分析模型挖掘算法)更容易利用它。数据分析模型任何形式的变化(包括清理、最大最小值转换、增长 等)意味着问题空间的变化洇此这种分析必须是探索性的。
第一种方法是将数据分析模型转化为可以分析的完全格式化的数据分析模型比如,大多数数据分析模型挖掘算法需要单一表格形式的数据分析模型一个记录就是一个样例。数据分析模型挖掘者都知道 什么样的算法需要什么样的数据分析模型形式因此可以将数据分析模型转化为一个合适的格式。
第二种方法是使得数据分析模型能够含有业务问题的更多的信息例如,某些領域的一些数据分析模型 挖掘问题数据分析模型挖掘者可以通过业务知识和数据分析模型知识知道这些。 通过这些领域的知识数据分析模型挖掘者通过操纵问题空间可能更容易找到一个合适的技术解决方案。
虽然经过数据分析模型获取、清理、融合等方式创建一个数据汾析模型仓库但是数据分析模型预处理仍然是必不可少的,仍然占有数据分析模型挖掘过程一 半以上的工作量
机器学习有一个原则:洳果我们充分了解一个问题空间(problem space),我们可以选择或设计一个找到最优方案的最有效的算法一个卓越算法的参数依赖于数据分析模型挖掘問题空间一组特定的属性集,这些属性可以通过分析发 现或者算法创建但是,这种观点来自于一个错误的思想在数据分析模型挖掘过程中数据分析模型挖掘者将问题公式化,然后利用算法找到解决方法事实上,数据分析模型挖掘者将问题公式化和寻找解决方法是同时進行的—–算法仅仅是帮助数据分析模型挖掘者的一个工具
有五种因素说明试验对于寻找数据分析模型挖掘解决方案是必要的:
· 数据汾析模型挖掘项目的业务目标定义了兴趣范围(定义域);
· 与业务目标相关的数据分析模型及其相应的数据分析模型挖掘目标是在这个定义域仩的数据分析模型挖掘过程产生的;
· 这些过程受规则限制,而这些过程产生的数据分析模型反映了这些规则;
· 在这些过程中数据分析模型挖掘的目的是通过模式发现技术(数据分析模型挖掘算法)和可以解释这个算法结果的业务知识相结合的方法来揭示这个定义域上的规则;
· 數据分析模型挖掘需要在这个域上生成相关数据分析模型,这些数据分析模型含有的模式不可避免地受到这些规则的限制
业务目标不是簡 单地在开始就给定,它贯穿于整个过程这也许可以解释一些数据分析模型挖掘者在没有清晰的业务目标的情况下开始项目,他们知道業务目标也是数据分析模型挖掘的一个结果不是静态地给定。
“没有免费的午餐”理论已经应用于机器学习领域无偏的状态好于(如一個具体的算法)任何其他可能的问题(数据分析模型集)出现的平均状态。没有一个算法适合每一个问题但是经 过数据分析模型挖掘处理的问題或数据分析模型集绝不是随机的,也不是所有可能问题的均匀分布他们代表的是一个有偏差的样本,那么为什么要应用NFL的结论答案涉及到上 面提到的因素:问题空间初始是未知的,多重问题空间可能和每一个数据分析模型挖掘目标相关问题空间可能被数据分析模型預处理所操纵,模型不能通过技术手段评估业务问题本身可能会变化。由于这些原因数据分析模型挖掘问题空间在数据分析模型挖掘過程中展开,并且在这个过程中是不断变化的以至于在有条件的约束下,用算法模拟一个随机选择的数据分析模型集是有效的对于数據分析模型挖掘者来说:没有免费的午餐。
这大体上描述了数据分析模型挖掘的过程但是,在有条件限制某些情况下比如业务目标是穩定的,数据分析模型和其预处理是稳定的一个可接受的算法或算法组合可以解决这个问题。在这些情况下 一般的数据分析模型挖掘過程中的步骤将会减少。 但是如果这种情况稳定是持续的,数据分析模型挖掘者的午餐是免费的或者至少相对便宜的。像这样的稳定性是临时的因为对数据分析模型的业务理解(第二律)和对问题的理解(第九律)都会变化的。
我们可能预料到一些数据分析模型挖掘项目会失敗因为解决业务问题的模式并不存在于数据分析模型中,但是这与数据分析模型挖掘者的实践经验并不相关
这是因为:在一个与业务楿关的数据分析模型集中总会发现一些有趣的东西,以至于即使一些期望的模式不能被发现但其他的一些有用的东西可能会被 发现(这与數据分析模型挖掘者的实践经验是相关的);除非业务专家期望的模式存在,否则数据分析模型挖掘项目不会进行这不应感到奇怪,因为业務专家通常是对的
“数据分析模型中总含有模式。”这个观点,基于客户关系的数据分析模型挖掘项目总是存在着这样的模式即客户未來的行为总是和先前的行为相关,显然这些模式是有利可图的但是,数据分析模型挖掘者的经验不仅仅局限于客户关系管理问题任何數据分析模型挖掘问题都会存在模式。
数据分析模型挖掘增大对业务的认知
这个定律接近了数据分析模型挖掘的核心:为什么数据分析模型挖掘必须是一个业务过程而不是一个技术过程业务问题是由人而非算法解决的。数据分析模型挖 掘者和业务专家从问题中找到解决方案即从问题的定义域上达到业务目标需要的模式。数据分析模型挖掘完全或部分有助于这个认知过程数据分析模型挖掘算法揭示的模式通常不 是人类以正常的方式所能认识到的。综合这些算法和人类正常的感知的数据分析模型挖掘过程在本质上是敏捷的在数据分析模型挖掘过程中,问题解决者解释数据分析模型挖掘算法产生的结 果并统一到业务理解上,因此这是一个业务过程
数据分析模型挖掘提供一个类似的“智能放大器”,帮助业务专家解决他们不能单独完成的业务问题
总之,数据分析模型挖掘算法提供一种超越人类以正常方式探索模式的能力数据分析模型挖掘过程允许数据分析模型挖掘者和业务专家将这种能力融合在他们的各自的问题的中和业务过程中。
预测提高了信息泛化能力
“预测”已经成为数据分析模型挖掘模型可以做什么的可接受的描述即我们常说的“预测模型”和“预测分析”。这是因为许多流行的数据分析模型挖掘模型经常使用“预测最可能的结果”(或者解释可能的结果如何有可能)这种方法是分类和回歸模型的典型应用。
但是其他类型的数据分析模型挖掘模型,比如聚类和关联模型也有“预测”的特征这是一个含义比较模糊的术语。一个聚类模型被描述为“预测”一个个体属于哪个群体一个关联模型可能被描述为基于已知基本属性“预测”一个或更多属性。
一个汾类模型可能被说成可以预测客户行为—-更加确切的说它可以预测以某种确定行为的目标客户即使不是所有的目标个体的行为都符合“預测”的结果。一个诈骗检测模型可能被说成可以预测个别交易是否具有高风险性即使不是所有的预测的交易都有欺诈行为。
“预测”這个术语广泛的使用导致了所谓的“预测分析”被作为数据分析模型挖掘的总称并且在业务解决方案中得到了广泛的应用。但是我们应該意识到这不是日常所说的“预测”我们不能期望预测一个特殊个体的行为或者一个特别的欺诈调查结果。
那么在这个意义下的“预測”是什么?分类、回归、聚类和 关 联算法以及他们集成模型有什么共性呢?答案在于“评分”,这是预测模型应用到一个新样例的方式模型产生一个预估值或评分,这是这个样例的新信息的一部 分;在概括和归纳的基础上这个样例的可利用信息得到了提高,模式被算法发现囷模型具体化值得注意的是这个新信息不是在“给定”意义上的“数据分析模型”,它仅 有统计学意义
不取决于模型的稳定性或预测嘚准确性
准确性和稳定性是预测模型常用的两个度量。准确性是指正确的预测结果所占的比例;稳定性是指当创建模型的数据分析模型改变時用于同一口径的预测数据分析模型,其预测结果变 化有多大(或多小)一个预测模型的准确性和稳定性常被认为决定了其结果的价值的夶小,实际上并非如此
体现预测模型价值的有两种方式:一种是用模型的预测结果来改善或影响行为,另一种是模型能够传递导致改变筞略的见解(或新知识)
一个模型的价值和它的预测准确度一样,都源自它的业务问题例如,客户流失模型可能需要高的预测准确度否則对于业务上的指导不会那么有效。相 反的是一个准确度高的客户流失模型可能提供有效的指导保留住老客户,但也仅仅是最少利润客戶群体的一部分如果不适合业务问题,高准确度并不能提高模型 的价值
总之,预测模型的价值不是由技术指标决定的数据分析模型挖掘者应该在模型不损害业务理解和适应业务问题的情况下关注预测准确度、模型稳定性以及其它的技术度量。
所有的模式因业务变化而變化
数据分析模型挖掘发现的模式不是永远不变的数据分析模型挖掘的许多应用是众所周知的,但是这个性质的普遍性没有得到广泛的偅视
行为的变化、市场的变化、竞争的变化以及整个经济形势的变化,预测模型会因这些变化而过时当他们不能准确预测时,应当定期更新
数据分析模型挖掘在欺诈模型和风险模型的应用中同样如此,随着环境的变化欺诈行为也在变化因为罪犯要改变行为以保持领先于反欺诈。欺诈检测的应用必须设计为就像处理旧的、熟悉的欺诈行为一样能够处理新的、未知类型的欺诈行为
某些种类的数据分析模型挖掘可能被认为发现的模式不会随时间而变化,比如数据分析模型挖掘在科学上的应用我们有没有发现不变的普遍的规律?也许令人驚奇的是,答案是即使是这些模式也期望得到改变理由是这些模式并不是简单的存在于这个世界上的规则,而是数据分析模型的反应—-這些规则可能在某些领域确实是静态的
然而,数据分析模型挖掘发现的模式是认知过程的一部分是数据分析模型挖掘在数据分析模型描述的世界与观测者或业务专家的认知之间建立的一个动态过程。因为我们的认知在持续发展和增 长所以我们也期望模式也会变化。明忝的数据分析模型表面上看起来相似但是它可能已经集合了不同的模式、(可能巧妙地)不同的目的、不同的语义;分析过程因受业 务知识驱動,所以会随着业务知识的变化而变化基于这些原因,模式会有所不同