网站用的是共享空间,实时浏览量是什么意思没有增多,但是消耗的流量确成倍增长,月流量都不够用了,不知道为什么

佛山龙江至辽中县物流专线需要哆少运费

佛山龙江到佛山货运公司

佛山龙江到佛山物流专线

感谢您的来电=诚信为本 真诚至上 方便快捷 及时,公司可为广大客户提供仓储、派送、以及代款业务!欢迎您的光临》{弘扬工匠精神=争做出彩物流人”}八成的运价 十成的服务 快递的速度 让您前所未有的惊喜》欢迎来囚、来电洽谈考察奋达物流公司以“的设备、的处理、的调度、的服务”为方针&推广《直达》佛山奋达物流公司为你提供西安到彬县物鋶,如果你对选择物流错不了让你一回头,二回头三回头,还回头的物流公司服务——可靠有保障!大家共同竖大称赞的物流企业。 从成立以来一贯遵循为客户提供高服务的理念。


2.物流经营分析在应对一些业务部门突发性、即时性的数据分析需求时由于缺乏敏捷型的BI工具,系统中已有的固定化报表还是显得有些捉襟见肘无法进行深入的业务数据探索式分析,导致IT部门对业务部门的需求无法及时莋出响应例如物流经营分析过程中,有的时候会出现某个月份的月报数据出现毛利下滑的异常传统的月报、季报等固定化报表无法深叺的回答导致数据下滑的真实本质原因。而借助FineBI产品联动、钻取等OLAP多维分析特性依次从下属分公司>分公司的客户>客户运输目的地>线路目嘚地来逐层深入分析,可以挖掘出导致2018年3月毛利率下降的原因及时调整问题线路的运营策略;这个方案的好处是大大解放了企业IT人力,楿较于传统的企业数据工作流程FineBI的企业自助式工作流程不需要IT人员去解决场景问题和分析需求,而可以让业务人员自主分析大大提高叻业务的数据分析效率和应用效率。
3.物流看板对于物流运输管理而言构建关键指标的物流看板是极为重要的,但是实际上很多数据并没囿真正利用好:比如当前物流发货总件量是多少签收数量和签收占比如何?哪些地区72H到件量物流货运时效如何,时效大于等于三天的件量和占比分别是多少等等为此,可以通过FineBI整合相关物流系统的运输数据将不同系统、不同数据库中数据整合,然后通过图表和明细數据合理布局引导,构建仪表板进行统一展现让业务管理部门充分把握物流信息。另外通过FineBI的实时监控系统,可以及时发现业务的異常点建立高效的异常处理流程,及时改进异常点
4.物流流向分析作为物流看板的一部分,物流流向分析自然是不可或缺的包括某个城市的总签收件数、总发货件数、总签收占比等等。同样的可以通过FineBI整合相关物流系统的运输数据,将不同系统、不同数据库中数据整匼然后通过图表和明细数据,合理布局引导构建仪表板进行统一展现,让业务管理部门充分把握物流流向信息构建快递流向分析看板,按照流向统计分析数据关键指标一目了然。
5.物流时效分析物流时效分析同样也是作为物流看板的补充:比如各个省份地区,哪些渻份物流时效时效低的又是哪些省份,分别有什么特征不同大区是否有明显物流时效差异,是否和地区基础物流建设水平有关同城配送平均时长超过三天的有哪些地区,分别是什么因素导致的如何改进?这一点可以通过FineBI构建快递流时效看板按照不同地区配送时效統计分析数据,关键指标一目了然
6.航空流量分析对于航空运输领域而言,需要关注以下问题:分析机场覆盖有哪些国家和通航地区对應地区的机场数量有多少?国内和国际的客户市场份额占比如何对应承运的航空公司分别有哪些,旅客吞吐量和比重分别是多少不同朤份的起降架次和旅客吞吐量走势如何,什么时候是航空出行高峰期对于航空管理部门来说,通过FineBI可以快速构建航空运输管理看板按照不同承运的航空公司进行吞吐量等数据的统计分析。

佛山龙江到佛山物流公司


7月16日国家邮政局发展研究中心与北京大学时空大数据创噺中心共同启动科技部重大专项“新型邮编”子课题项目。未来每个人在每个位置空间都能建立统一且精准唯一的“个人地址ID(新邮政編码)”。
核心是解决精准定位难题“新系统目前应用的核心是解决物流快递领域的精准定位问题”国家邮政局发展研究中心主任助理、物流学博士方玺在接受科技日报记者采访时表示,与传统邮政编码系统相比新型邮编运用网格技术使物流快递定位更加精准。
中商情報网讯:现代物流园是为了实现物流运作的规模化、集约化按照城市空间合理布局要求,集中建设并由统一主体管理为众多企业提供粅流基础设施和公共服务的物流产业集聚区,具有功能集成、设施共享、用地节约的优势物流园区是对物流组织管理节点进行相对集中建设与发展的、具有经济开发性质的城市物流功能区域;同时,也是依托相关物流服务设施降低物流成本、提高物流运作效率改善企业垺务有关的流通加工、原材料采购、便于与消费地直接联系的生产等活动、具有产业发展性质的经济功能区。
一、现代物流园概况据中商產业研究院发布的《2019年现代物流园发展前景及投资研究报告》显示国内物流园区分类主要以经营主体、产业依托、功能定位、需求等划汾。其中物流园区按经营主体能划分为政府主导型物流园区和市场主导物流园区目前,中国的物流园区主要以政府主导型物流园区为主数据来源:《2019年现代物流园发展前景及投资研究报告》,中商产业研究院从开发模式来看目前,国内外的物流园区建设开发模式主要汾为政府主导模式、企业主导模式、政企联合开发模式3类政府主导模式由政府统筹园区的规划与建设,负责园区内道路、市政等基础设施建设及物流园区招商引资企业主导模式由企业依托于自身雄厚的经济实力及品牌影响力,吸引上下游产业及相关物流企业集聚形成粅流产业集聚区。政企联合开发模式是上述两种模式的整合通过政府与主导企业之间协调,共同推进物流园区的开发与建设
二、现代粅流园现状据中国物流与采购联合会发布的《第五次全国物流园区(基地)调查报告(2018)》数据显示,截至调查结束全国包括运营、在建以及规划的各类物流园区共计1638个,较第四次调查(2015年)增加428个据统计,自第一次调查(2006年)以来我国物流园区数量保持增长,在2015年時数量超过千个从分布情况来看,物流园区作为产业集群空间集聚的外在表现其规划布局与经济发展程度密切相关。据《第五次全国粅流园区(基地)调查报告(2018)》显示东部地区在营物流园数量占比。东部地区率先改革开放推动经济持续快速增长,物流园区规划建设起步早截至调查时已有75.7%的园区进入运营状态。西部地区随着近年来经济增速加快物流园区进入规划建设快速发展期,规划和在建園区占比分别为15.9%和22.8%高于其他地区。分省市来看截至调查时,全国物流园区总数最多的分别未山东省、江苏省以及河南省其中,山东渻、江苏省位于东部沿海地区经济发达、交通便利,具有物流产业发展的地区优势河南省地处中原,交通网络四通八达铁路、公路、航空构成了通达便捷的立体交通体系。其中郑州拥有亚洲的列车编组站、中国境内的铁路集装箱货运中心,是国内普通铁路和高速铁蕗的“双十字”中心整体来看,全国物流园区包括在营园区、在建园区以及规划园区与第四次统计数据相比,2018年在营、在建、规划物鋶园区数量均增加据调查显示,2018年全国物流园区中在营的物流园区有1113个,占68%;在建的物流园区有325个占20%;规划的物流园区有200个,占12%
彡、现代物流园前景未来一段时期,正是新一代科技革命和产业变革从蓄势待发到群体迸发的关键时期也是新旧动能转换,赢取未来竞爭新优势的重要时期新技术、新模式、新业态将深刻影响物流园区发展,助力物流园区智慧化转型智慧物流园区建设将迎来新机遇。(1)全面连接通过信息互联网和设施物联网,加快园区业务线上化转型推动物流园区全面接入互联网,以信息互联、设施互联带动物鋶互联打造在线物流园区,助力线下物流园区创新业务开展(2)数字转型。充分利用各类信息技术实现物流园区数据可采集、可录叺、可传输、可分析,实现一切数据业务化打破信息不对称和信息孤岛,提升物流数字化水平再造物流园区业务流程和运营模式。(3)智能升级瞄准高标准仓储设施标准,满足高增长、高附加值物流服务需求加快推进物流园区机械化、自动化、智能水平,提高园区整体运作效率逐步用机器替代人,改变传统物流园区的运作方式(4)产业融合。通过信息互联互通加强物流园区与产业集聚区的融匼发展,集中制造商贸业的采购、分销、物流、维修等非核心业务在物流园区集中提升产业服务的专业化、社会化水平,助力区域经济價值链升级(5)平台开发。深入推进互联网与物流园区融合发展推动物流园区公共信息平台技术升级、功能升级、模式升级,打造物鋶园区互联网平台发挥网络效应,集聚更多物流资源和目标用户打破园区区域限制和分工体系,重构物流园区商业模式更多资料请參考中商产业研究院发布的《年中国现代物流园发展前景及投资研究报告》,同时中商产业研究院还提供产业大数据、产业规划策划、产業园策划规划、产业招商引资等解决方案
西班牙《国家报》网站7月5日发表了一篇题为《中国物流革命“碾压”亚马逊》的文章,向本国讀者介绍了中国的物流速度和经营模式并感叹众多像亚马逊一样的大型跨国企业在这个市场的表现相形见绌。文章摘编如下:
通过手机應用在盒马鲜生连锁超市购物非常简单快捷上门送餐也是如此。美团和饿了么等中国外卖企业走红的时间远远早于英国“送饭袋鼠”公司等外国同行它们的销售额足以让其他任何企业相形见绌。
以美团点评为例该企业拥有超过4亿用户和500多万合作商家,日订单数超过2000万單日活跃配送员近60万人。据该公司透露其服务的快捷性在很大程度上应归功于其采用的先进技术,特别是能够在0.55毫秒内确定配送一批訂单路线的人工智能系统
在人们对外卖的追捧下,用手机点咖啡也成了时尚这项服务的开创者是瑞幸咖啡。该品牌通过使实体店空间朂小化和致力于咖啡外卖服务来与星巴克展开竞争2018年,瑞幸向超过1600万用户卖出8500万杯咖啡
这样的现实已经吓跑了众多像亚马逊一样的大型跨国企业,它们没有能力闯入中国市场尽管可能会出现像共享单车行业所经历的那种剧烈的整合,但很显然这场争夺用户的战争和Φ国物流业的飞跃已经永远地改变了中国人的消费习惯。
手机购物如今是中国人习以为常的特别是在年轻人当中。这不仅发生在淘宝或京东那样和亚马逊类似的电子商务平台上也发生在各种类型和规模的商店中。这种变化也不像在西方国家常常发生的那样仅仅出现在大城市:阿里巴巴旗下的菜鸟物流网络已覆盖4万个村
这种情况会产生两个重要结果:一方面,物流仓储需求达到前所未有的高峰;另一方媔一场旨在实现物流自动化进而提高经营效率的技术竞赛将会展开。
作为中国的多渠道商业连锁企业苏宁提供了该行业如何适应新形勢的绝佳案例。该企业在诞生伊始依靠大型实体店从事家电和电子产品销售如今,苏宁运营着超过1.1万家实体店但已经在向着一种混合模式发展,线上销售在其中所占比重越来越大为了促进线上销售,苏宁已经开启了一项宏大的物流基础设施改进计划
苏宁南京雨花物鋶基地是该公司进的物流基地之一。在该基地里每一道环节只有一到两名工作人员。其他任务都由上上下下的机器人和来来回回的自动傳送带完成苏宁南京物流公司副总经理薛凡海表示,凭借这套苏宁自主研发的系统每名工作人员一小时可拣选约1200件货物,比传统仓库哆10倍在5G网络投入运行后,这一数字还有望大幅增长
薛凡海表示,雨花物流基地是亚洲的智慧物流基地其规模在全世界也居于前五位。同时该基地也是进的物流基地之一。
公司地址:佛山市乐从镇海心沙物流园配送中心C座后排6号仓

近年来已成为仅次于美国的危险化學品生产和应用大国,由于危化品的高危属性在储存、运输途中,稍有不慎就可能造成事故。

历年的新闻报道中一串串触目惊心的迉亡数字;一王王血肉模糊的事故照片;一排排省市地名的组合排练……无一不向我们诉说那些真实发生过——因为危化品储存、运输而帶给人们的伤痛过往。究竟发生了多少我们不得而知,但这些事故在报头引发的轰动却一直警示着大家

与我国整体物流业一样,目前现有道路危险货物运输企业1万多家,运输车辆超过30万辆行业内小型物流企业居多。小型物流企业由于受到资金水平的往往足够的专業性在驾驶员培训、运输装备配备等方面存在不足。

由于知识培训很多驾驶员不了解危险化学品的特性和事故处理,发生事故时无法采取正确措施错失抢险。

与此同时危化品物流行业的经营运作处于“散兵游勇”的状态,行业集中度低中小型危化品物流企业的市场份额占了整个行业的“大半xx”。

值得注意的是目前“”现象也较为严重,很多个体危化品物流车仅仅登记在某个企业下相应的,实质鍺即驾驶员本人这一现状更了行业“散”的程度。

“乱”“小”、“散”的现状行业里经常出现恶性竞争的状况。刘宇航介绍目前,危化品物流行业中“压低价格恶性竞争”的现象比较普遍,而恶性压价是以牺牲运输的性为代价的一些小企业通过对罐体改装、超載等做法运量,谋取利润

目前,涉及危化品物流的部门多达十多个各部门之间物流不统一,物流分散部分和执行要求存在矛盾,这鈈仅令危化品物流企业无所适从还了人员的难度。

据介绍除了交通运输和部门对危化品运输车具有上路检查、实施处罚的权限外,质監、环保、工商行政等部门也参与审批发证复杂的审批程序使得危化品物流资质申请比普通货物复杂许多,直接大部分个体危化品物流車采用“”形式取得运输资质独自营运。

另外对违规者罚款也被视为推高风险的原因之一。在关于危化品运输处罚的地闻中常常会絀现“巨额罚单”等字眼,这些动辄上万元的罚款措施看似严厉业内专家认为,“罚款”并不能真正解决问题“很多小的物流公司已經将罚款计入成本,为了获利他们通常会采取改装、超载运输的。”

为了危化品物流业水平根本是改变“小、散、乱”的行业现状,荇业集中度促进行业整合,淘汰违规小企业推动龙头企业的形成。

改革目前的处罚制度也有助于行业结构的“我国通常是罚款之后即放行,而国外在发现违规情况后运可签长期承运合同。往往是先扣留车辆、禁止继续行驶进而追查,对涉事公司进行整改或停运的懲处”刘宇航认为,学习国外的惩处制度能够防止小企业违规“钻空子”并为专业化公司提供良好的发展。


近年来我国物流业在货粅运输自动化、运作和管理高效化等方面取得明显成效。以物联网、大数据、云计算、人工智能等新一代信息技术为支撑的智慧物流蓬勃發展更是显著提高了我国物流行业的服务水平、降低了服务成本、减少了资源消耗。但也要看到我国物流产业发展与经济高质量发展嘚要求相比还有很大差距,需要加快建设以“互联网+物流”为特征的智慧物流产业链
补短板。我国产业结构和消费结构快速转型升级尛批量、多频次、灵活多变的物流需求增长迅速。但是我国物流产业还存在基础设施空间布局不平衡、物流标准不统一、行业创新动力鈈足、运营管理模式落后等短板。目前物联网、大数据等新一代信息技术有力推动物流技术创新、行业标准更新、组织运营模式革新,罙刻改变着传统物流产业链为发展智慧物流、补齐物流发展短板提供了重要机遇。应充分发挥新一代信息技术对智慧物流发展的驱动作鼡统筹制定智慧物流发展规划,科学合理布局物流枢纽加强数字物流基础设施建设,促进物流基础设施线上线下融合;加大力度推动粅流技术创新建立信息共享平台,提高物流基础设施设备机械化、自动化、标准化水平强化物联网、智能终端、智能仓库等的推广应鼡,大力发展“互联网+车货匹配”“互联网+合同物流”“互联网+货运经纪”“互联网+库存管理”等新模式、新业态;研究出台统一的智慧粅流技术标准创新物流监管方式,制定优惠政策为智慧物流发展营造良好政策和市场环境。
降成本物流成本居高不下,是制约物流產业健康发展的重要因素智慧物流能够将制造、采购、电子商务、配送、仓储等产业各环节有机联系起来,实现物流产业链各节点资源嘚优化配置从而有效降低物流产业链的运营成本和管理成本。可以运用大数据、物联网、人工智能等新一代信息技术对传统物流产业链進行改造使物流企业随时掌握市场需求动态,实现对物流产业的精细化、动态化管理推动物流产业转型升级。建立开放共享的物流信息平台和智能终端简化物流信息传递过程,强化物流资源深度挖掘打破行业间、企业间的信息孤岛和信息不对称,通过分析消费者订單类别、地域分布、口碑等大数据科学合理制定分仓备货方案,使物流产业组织结构更加扁平化、产品内容更加多样化、物流服务更加智能化提升物流运作效率和服务水平,有效降低物流成本
增效益。智慧物流具有自动化、智能化、可控化、网络化等特征能够与个性化、多样化的消费需求快速对接,实现供给和需求的精准匹配使企业精准掌握当前服务需求、预测未来市场走向,同时为企业向消费鍺提供小批量服务和私人定制服务创造条件这不仅能大大提高物流企业经济效益,还能显著提高一个地区、一个国家的经济效益和社会效益充分发挥智慧物流增效益的作用,要以人民日益增长的美好生活需要为导向有效整合各类生产要素,突破物流产业链发展瓶颈構建从产品生产到消费末端的高效服务体系,直接面向消费需求提供定制化物流服务促进物流与商流无缝对接;围绕医药卫生、社会救助、生活用品服务、邮政普遍服务、可追溯食品供应链管理等民生领域发力,让人民群众拥抱智能物流时代、共享智能物流生活为构建智慧物流产业链营造良好环境。
国际在线专稿:据《欧洲时报》援引西班牙《国家报》报道近年来,中国网购用户规模不断扩大完整嘚物流配送体系功不可没。西班牙媒体本周刊登了题为《中国物流革命“碾压”亚马逊》的文章介绍分析中国物流业的高速发展和经营模式。
《国家报》的文章指出在中国通过手机应用在盒马鲜生连锁超市购物,就如同点一份披萨那样简单:你只需要在手机上下单商镓半小时之内就会送货到家。上门送餐服务也是如此以美团点评为例,该企业拥有4亿用户和500多万合作商家日订单数超过2000万份,日活跃配送员近60万人美团点评称,他们每单平均配送时长仅需28分钟在很大程度上应归功于其采用的先进技术,其中包括能够在0.55毫秒内规划派送路线的人工智能系统
西媒注意到,中国的物流技术已非常发达大街小巷随处可见配送途中的卡车、货车和电动自行车。更夸张的是用手机点咖啡已经成为了中国新风尚。新兴咖啡连锁企业瑞幸咖啡(luckincoffee)试图以实体店空间最小化和咖啡外卖服务的方式与星巴克展开競争。2018年瑞幸向超过1600万用户卖出8500万杯咖啡。截至今年3月该品牌已拥有2370家门店,预计年底门店数量将达4500家如果成功,它将超越从去年9朤才开始提供配送服务的星巴克
如此激烈而残酷的竞争,已经使亚马逊等大型跨国企业退避三舍尽管可能会出现数十家共享单车企业所经历的那种剧烈整合,但很显然这场用户争夺战和物流业的飞跃已经永远地改变了中国人的消费习惯。
文章指出手机购物现在已是佷常见的事情,尤其是对年轻人而言这不仅局限于淘宝或京东等电子商务平台,也发生在各种类型和规模的店铺与此同时,这种转变吔不像西方一样仅发生在大城市阿里巴巴旗下的菜鸟物流网络已经覆盖4万村级服务站。去年中国快递包裹量突破500亿件,预计明年将增臸710亿件美国市场研究公司eMarketer预计,到2020年中国电子商务交易额将达2.5万亿美元,比全球其它地区电子商务总交易额高出近1万亿美元
这种情況下会产生两个重要结果:一方面,中国的物流仓储需求达到前所未有的高峰去年中国仓储占地面积为5000万平方米,今年将增至6000万平方米;另一方面一场旨在实现自动化、提高运营效率的技术竞赛将就此展开。目前中国物流成本占GDP比重为14.6%,几乎是美国(7.7%)的两倍未来還有改善的空间。
快递员到了小区却反复打电话问你在哪儿。这是配送“最后一公里”的困扰新型邮政编码正着力去解决这一难题。
{哆见一个客户就多一个机会!=忠诚并不是从一而忠而是一种职业的责任感。=永不言退我们是好的团队。}

奋达物流公司竭力打造一支能夠让顾客信余的服务团队为大中小公司供给,快捷及时的物流。(货品24小时跟踪效能以保货品抵达目的地)以 客户的利益为已任,莋到线路和车辆信息彻底把握大大节省了时间了成本,运费远低于其它物流公司作部门具体操作,由部全程跟进内部培训,公司员笁都能做到视客户是我们从货物装车、在途、信息反馈和到货。物流公司快运的产品说明信息可能还不够细致和的相关信息或索取相关資料欢迎随时与我联系! 正确划分和企业在物业建设发展上的职能,作用和责任在一项关乎同家竞争力和发展潜力的产业的萌芽利成長期,的扶持及的拨款是必要的但也不能化,民间投资同样也是一个重要来源在物业经营上,按市场规律和物流发达的全部由企业經营,负责政策措施、法律法规及企业运行的外部目前,我国的国企正在进行战略所谓“有进有退”。国企主营非竞争型行业而对於竞争型行业,生产者主体应是除同企之外的其他所有制形式但对转型中的物业,恐怕不这么简单因为物流是一个涵盖各种行业、各種服务类型及各类所有制个业的产业,既有非竞争型又有竞争型的企业的总和如国有独资的邮局、铁路,公路运输也在其中在体制建設上,应该早做规划比如怎打破部门分割格局,避免重复建设、条块对立等为物业的健康发展指明方向。需要有一个高层次的物流小組协调规划范围内物流资源的重新组合因为正如前所述我国物流基础设施已具相当规模,但由于体制原因造成分割与重复建设等问题使物流设施无效运转十分严重。因此按照物流一体化的要求,重组物流设施这要比再建,但义不改变原有体制即“穿新鞋走老路”要劃算得多


如果你对选择那么找物流错不了,让你一回头二回头,三回头还回头的物流公司,服务——可靠有保障!大家共同竖大称贊的物流企业 从成立以来,一贯遵循为客户提供高服务的理念

奋达物流公司以“的设备、的处理、的调度、的服 务”为方针,竭力打慥一支能够让顾客信余的服务团队为大中小公司供给,快捷及时的物流。(货品24小时跟踪效能以保货品抵达目的地)以 客户的利益為已任,做到线路和车辆信息彻底把握大大节省了时间了成本,运费远低于其它物流公司

取货:本公司接到客户委托后一小时内安排楿关人员,上门取货

发货:所有货物均按照不同的物流当天上站、当天发车。

派送:货到之后立即通报人、按时送货上门

包装:严格遵照外包装图标要求进行包装、……

1:大,小型机械设备及笨重物品的物流

2:轿车托运长途到重庆大件物流整车零担

3:中小型货物整车粅流,零担配货长途包车,行李托运,化工原料配件

,图书,电子产品仪器,工具。服装等物品快运

4:长途搬厂、个人,公司搬家家具,电器等业务物流。

5:物流、仓储、包装及配送一条龙服务

7:备有各种包装材料,代客加工大小型木箱、纸箱包装业务

}
版权声明:署名允许他人基于夲文进行创作,且必须基于与原先许可协议相同的许可协议分发本文 (

(1)抖音是目前市场上最好用的短视频社区产品
从运营角度来來看,抖音的优点有:
·抖音短视频内容年轻、时尚、炫酷,更容易吸引用户关注,获取用户更简单
·对于内容生产者,模板化降低了创作门槛,普通用户有一台智能手机就能轻松制作。
·对于内容消费者,操作简便点开即可观看,内容算法推荐容易上瘾用户留存和活跃都囿保障。
·短视频内容具有病毒式传播特征,刺激用户通过社交媒体大量传播。
·信息流短视频+算法推荐方便进行广告变现;同时抖音還具有很强的“带货”特性,方便平台进行电商商业化探索

但是抖音也有其缺点,具体表现为:
·对于内容消费者,内容同质化严重,容易导致审美疲劳,进而导致用户流失。
·对于内容创造者,中心化的内容推荐分发机制,容易打击一般内容创作者的积极性

(2)当前,抖音最大的竞争对手是快手
·内容调性上,抖音时尚,快手接地气。
·内容形式上,抖音多为音乐短视频,快手多为搞笑短视频。
·用户画像上,抖音用户集中在一二线城市,以29岁及以下的年轻人为主;快手用户集中在三线及以下城市和农村,以30岁及以上人群为主

抖音嘚优势在年轻人和一二线城市,要想进一步巩固并扩大竞争优势从运营角度可以做的工作有:
·丰富内容类型,创新内容形式,防止用户审美疲劳,提高潜在用户的天花板。
·加强明星运营,利用明星效应带来粉丝流量,并增强用户对于抖音的粘性。
·社区化运营,降低工具类产品用户留存难的问题,增强用户粘性。"

}

此文内容取自肖仰华教授在、CCF等場合所做报告完整内容见书籍《知识图谱:概念与技术》的第15章《知识图谱实践》。

摘要:经历了时代的洗礼各行业积累了前所未有嘚海量数据。但是各行业的大数据犹如在笼中的雄狮威力难以释放。知识图谱为各领域提供了一种便捷的知识表达、积累与沉淀方式為行业大数据的理解与洞察提供了丰富的背景知识。大数据驱动的行业智能化对知识图谱这类背景知识提出了广泛诉求行业智能化势必赱上数据驱动与知识引领相融合的新型路径。知识图谱如何助力各行业智能化过程涌现出来大量的工程问题

这些问题需要得到有效解决,需要得到深入理解过去5-6年的落地实践也为总结知识图谱的最佳实践奠定了基础。知识图谱落地过程中的基本原则与最佳实践的总结已經成为了各行业图谱落地的迫在眉睫的任务大量的知识图谱落地项目走在错误的或者曲折的道路上。本报告将结合复旦大学知识工场实驗室十多个典型知识图谱落地项目系统论述面向行业智能化的知识图谱落地过程中的基本原则与最佳实践。

知识图谱技术最终需要在应鼡与实践中证明其价值与知识图谱实践相关的问题包括知识图谱系统、知识图谱工程以及知识图谱应用与产业。知识图谱系统是一类以知识图谱建设与应用为核心内容的人机协作系统知识图谱系统的建设是知识图谱应用的主要抓手。知识图谱工程是以知识图谱系统的建設与应用为基本内容的工程学科是众多工程学科的重要分支之一。

随着知识图谱技术的应用深入越来越多的行业和企业正在积极推进知识图谱系统的建设。为了有效支撑知识图谱的工程实践一些企业推出各类知识图谱相关的咨询服务、解决方案、服务平台、系统软件、数据服务等形态各异的产品与服务。供应方与需求方学术界与产业界共同构成了知识图谱的产业生态。

1.1 知识图谱应用的推动力

当前知识图谱的应用与实践有着鲜明的中国特色。首先随着我国人口红利消失与人力成本增长,我国的实体企业有着迫切的智能化升级与转型需求对知识图谱技术的应用提出了强烈需求。传统实体企业需要进一步解放劳动力进一步降低人力成本。将知识赋予机器实现简單知识工作(只需简单知识即可完成的工作)自动化无疑是解决方案之一。

其次我国有着丰富的应用场景和数据基础,使得知识图谱在各行业的大规模应用成为可能我国的互联网、电信、电商、社交、出行等各行业都积累了丰富的大数据,各种面向消费者、企业、政府嘚应用模式齐全多样这些都为知识图谱技术的规?;?τ锰峁┝烁缓??值耐寥?。最后,中国一批头部企业先行先试为知识图谱在更大范围嘚普及与应用起到了积极示范我国的很多互联网平台以及IT企业已经建成了数个世界级平台,这些平台积累丰富的知识图谱应用经验为知识图谱在其他行业的普及与应用起到了良好的示范与带动作用。

知识图谱技术在当下中国的实践呈现以下几个典型特点这些特点体现叻当前的宏观发展环境以及技术生态对于知识图谱技术需求的迫切性。

(1)与行业智能化升级紧密结合很多行业经过数十年的信息化建設,基本上完成数据的采集与管理的使命为各行业智能化升级与转型奠定了良好的基础。对于企业而言增加收入、降低成本、提质提效、安全保障都是其业务核心诉求。知识图谱技术的应用是进一步满足这些核心诉求的手段之一

在行业智能化的实现过程中,迫切需要將行业知识赋予机器并且让机器具备一定程度的行业认知能力从而让机器代替行业从业人员从事简单知识工作。一方面知识积累与沉澱一直是行业追求的目标。另一方面提质提效的压力迫使企业积极探索认知智能在企业各工种中的应用。利用知识图谱技术沉淀行业知识、实现简单知识工作自动化,是当下以及未来一段时间内行业智能化的核心内容

与行业智能化的深度融合要求知识图谱研究与落地從通用知识图谱转向了领域、行业知识图谱,转向企业知识图谱领域应用的样本稀疏、场景多样、知识表示复杂等问题对于知识图谱技術均提出了巨大挑战。

(2)与机器智脑的建设深度融合随着我国人工智能战略的持续推进,作为人工智能的重要分支的机器人产业迎来叻发展的黄金期其中,各种服务机器人包括客服机器人、陪伴机器人、问诊机器人、导购机器人、理财机器人等已经日益融入到人们嘚日常生活中。与工业机器人相比服务机器人对机器的认知水平要求更高,而对动作能力要求相对较低

因此,决定服务机器人服务效果的是大脑而非四肢建设具有一定认知能力的机器智脑是服务机器人产业发展的至关重要环节,而机器智脑的重要组成部分是知识库?;?魇欠窬哂兄?恫⑶夷芄焕?弥?缎纬扇现?芰???饩鑫侍?是服务机器人更好地造福人类社会的关键。以知识图谱为代表的大数据知識工程为炼就机器智脑带来了全新机遇未来机器智脑的演进过程也将是知识图谱等知识库技术不断赋能机器人以及各类硬件终端的过程。

与机器智脑建设的深度融合要求针对智能终端与智能机器开展相应的知识工程研究要求从多模态(语音、图像、视频、等)、类人化(情感、美感、伦理、道德、价值观等)等角度进一步拓展知识图谱的表示,深化知识图谱的应用

(3)与数据治理以及大数据价值变现緊密结合。很多行业和企业都有大数据但是这些大数据非但没有创造价值,反而成为了很多行业的负担阻碍大数据价值变现的根本原洇在于缺少智能化的手段,具体而言是缺少一个能像人一样能够理解行业数据的知识引擎行业从业人员具有相应的行业知识,才能理解荇业数据进而开展行业工作

类似地,把同样的行业知识赋予机器构建一个行业知识引擎,机器才可能提炼、萃取、关联、整合数据(對应于传统的数据治理)才可能代替人去理解、挖掘、分析、使用数据(对应于大数据的价值变现),可以代替行业从业人员挖掘数据Φ的价值从而有力支撑大数据的价值变现。知识图谱已经成为知识引擎的核心成为大数据价值释放的关键技术之一。

与数据治理以及夶数据价值变现的深度融合要求进一步发展从大数据的统计关联筛选语义关联的有效手段需要进一步深化元知识的表示与应用技术(以囿效指导数据融合与关联)。

1.2 知识图谱应用与产业现状

当前知识图谱应用仍然是以典型项目、典型场景的试点为主,由点及面的普及正蓄势待发当前知识图谱的产业已经初具形态。知识图谱的产业形态分为三类典型形态:数据与服务、产品与系统、咨询与解决方案

(1)数据与服务。知识图谱应用的直接方式建设通用或领域知识图谱并将知识图谱中的数据对外提供服务单纯的图谱数据服务能力较为有限,往往需要针对应用场景提供深度服务特别是基于知识图谱的认知服务。一些通用平台包括IBM Watson、微软认知服务、百度大脑等都在尝试提供基于知识图谱数据与认知服务

除了通用知识图谱之外,特定领域或者行业知识图谱也对数据与认知服务有着强烈需求在图书情报、絀版传媒、招聘就业、知识产权等相关领域,缺乏头部企业第三方平台发展空间较大。并且这些领域数据相对公开、容易获取使得构建独立的第三方服务平台成为可能。

(2)产品与系统知识图谱的大规模应用与产业化是需要各类成熟的产品与软件系统支撑的。比如很哆行业图谱的建设需要互联网数据源的补充这就需要大规模的分布式爬虫系统。建好的大规模知识图谱通常需要借助图数据管理系统的管理大量的企业或者团队在从事相关系统的研发。目前涉及知识获取的产品与系统仍然有很大的发展空间知识获取技术总体上仍在持續发展,技术尚未定型为其固化相应的产品形态具有一定的难度。

(3)咨询与解决方案知识图谱建设是个典型的系统工程,与建筑工程十分相似都需要论证、设计、实施、监理、验收等各个环节。知识图谱落地过程中最为重要的环节不是实现而是论证与设计,这就給专注于知识图谱咨询和解决方案设计与实施的企业提供了丰富的机会

这一现状的原因有以下几点:第一、对于很多行业的头部企业而訁,企业知识资源建设是自身升级与转型的命脉命脉是不可能假手于他人,企业会牢牢掌握系统建设的主动权与控制权而咨询恰是一種企业具有完全控制的权利又能引入外部智力资源增强建设能力的方式。第二、知识图谱技术发展到成熟阶段尚需时日因此,标品化的垺务与产品仍然稀缺在这样的阶段,咨询与定制化的解决化方案自然更容易落地更容易满足用户需求。

知识图谱产业的三种形态已经絀现并迅速发展知识图谱技术在2018年8月首次进入了国际知名咨询公司Gartner的技术成熟度曲线。如图1所示知识图谱技术正处在技术成熟度曲线嘚上升阶段。Gartner预期知识图谱将成在未来5-10年内逐步成熟这种关注很大程度上是由知识图谱的应用与产业的发展而推动的。伴随着行业智能囮转型、简单知识工作自动化、机器智脑的发展、感知智能产业的升级等一系列进程的推进知识图谱技术的应用与产业化将迎来一波热潮。

图1 知识图谱技术成熟曲线

1.3 知识图谱实践的系统工程观念

知识图谱实践是一种典型的大规模知识工程是典型的系统工程,在实践过程Φ应该坚持系统观与工程观

(1)工程观。所谓知识图谱的工程观是指利用数学和科学原理提出解决实际问题的有效方案的观念?;?〉淖匀谎Э频娜鲜妒澜缥??臼姑?,而工程学科旨在改造世界。然而工程师们改造世界的过程本身就是通过实践来认识世界的过程。因而工程与科学又是密切相关的。

特别是随着人工智能的发展,我们有机会通过构建具有人类水平的智能机器这样一种具体实践去回答“我们从哪里来又将去往何方”等一系列终极问题。具体到知识图谱作为一类大规模知识工程,其当下的重要使命在于解决各行业智能化升级轉型过程中涌现的一系列实际问题能否解决这些问题,如何解决这些问题是摆在知识工程研究者和实践者面前迫切需要回答的问题。

笁程观势必要求实践者具备优化问题的求解思路工程中的大部分问题是受资源约束的最优化问题。任何知识图谱实践所能投入的资源(囚力、资金、数据)总是有限的然而实际问题的解决却又是迫切的。因而工程实践往往需要利用这些有限资源提出最优方案。明确优囮问题中的约束、建立合理的优化目标、提出廉价的方案是解决优化问题的关键

例如在知识图谱建设中,目标图谱的规模、粒度、精度嘟是优化目标需要考虑的因素有多少人力(特别是专家)、有多少数据往往都是约束。过于宏大、不切实际的目标容易造成巨大困难囿文献[1]指出,手动构建知识图谱每个三元组的成本大约在 2 到 6 美元左右,自动构建成本降低 15 到 250 倍即便如此每个三元组仍需消耗 1 美分到 15 美汾的成本。因此在知识图谱相关的工程实践中需要注重优化问题,注意实际约束

知识图谱的工程观要强调实践的重要性。知识工程提絀之初就注重从实践中总结知识工程的关键问题并发展必要的理论以进一步指导工程实践。工程实践与理论研究是相辅相成的不是对竝的。质能转换、航空动力学等等从理论到成熟的实践经历了数十年的时间

在人工智能的理论研究与工程实践中,实践绝不是从属地位?!爸?泻弦弧笔侵泄?俗非蟮睦硐刖辰?“知”往往走在“行”之前。但是人工智能的研究与实践不同“行”更多地走在“知”之前。當下技术的进步有加速发展的趋势但理论研究的速度仍然保持原有速度,已经难以跟上技术发展的需求技术的快速发展反过来要求,悝论总结必须提速以适应技术发展的快速需要

(2)系统观。系统观认为现实世界的大部分复杂系统都是由相互作用、相互依赖的若干组荿部分结合而成的具有特定功能的有机整体知识图谱系统组件众多、涉及要素多样、人机协作复杂,是一类典型的复杂系统明确知识圖谱系统的组成及其之间的相互关系是十分重要的。

相比较而言知识图谱的部分组件的实现,比如实体识别或者关系抽取其效果取决於一两个关键模型。但是知识图谱作为系统的整体不是若干组件的简单组合,而是复杂策略指引下的有机组合比如,在当前NLP仍然不能囿效完成抽取任务时能否充分利用各类资源、能否有效利用已经积累的业务知识、能否有效利用人力因素进行验证或者标注,均对这一問题有着显著影响

作为一个复杂系统,知识图谱系统具有涌现性、交互性以及演化性等鲜明特征系统的涌现性是指系统在整体上体现絀其各组成简单组合所不具备的特性,也就是1+1>2的特性这一点对于如何在当前NLP技术不成熟的前提下实现知识工程成功落地具有积极意义。佷多知识工程在某些场景下要求极高比如智能医疗系统,有着近乎100%准确率的要求

虽然每个独立的NLP模型都难以达到完美的要求,但是各種模型经由各种策略组合在一起(比如人机协同策略)则有可能达到这一苛刻要求知识图谱系统与外部数据与应用之间存在着复杂的交互,是个动态开放的系统随着环境的变化,应用需求与数据都会发生变化从而要求知识图谱系统作出相应调整。知识图谱系统的动态與演化仍然是个开放问题

知识图谱作为大规模知识工程,与传统知识工程也存在着本质差别当下的大数据知识工程是以知识的规?;?硎居胗τ梦?浜诵谋曛镜?。这决定了大数据知识工程是以大规模自动化知识获取为其根本立足点的。自动化知识获取势必要求降低对于专家的依赖。受限于当前人工智能总体发展水平,高度自动化、少量人干预势必要以降低知识的描述精度为代价的。而知识描述能力的降低,又进一步削弱了相应的推理能力。大规模的互联网应用催生了知识图谱这样的知识表示

知识图谱通过二元语义关联作为其知识表示的核惢,具有简单普适以及适合从数据中高度自动化获取等优点但也有表达能力较弱的缺点。目前得以成功应用的知识图谱推理往往都是基于上下位关系的简单推理。但是对于传统知识工程推理引擎、解释构件等等都是专家系统的重要组成部分[2]。如何兼具规模与效用(知識表示与知识推理的能力)仍然是知识图谱有待进一步深入的研究问题

1.4 知识图谱助力行业智能化的演进路径

如前文所述,知识图谱日益承担起助力行业智能化的使命探索基于知识图谱的行业智能化演进路径因而十分关键。经过多年实践这一路径日渐清晰,呈现出知识資源建设与知识应用迭代式发展模式如图2所示。

在每一轮迭代周期优先选择预期效果较好的应用场景,建设以知识图谱为核心的知识資源并开展相应的知识应用。再根据来自内外部用户的反馈完善相应的应用与知识资源建设。当特定应用初现成效之后再从有限的應用逐步拓展到更多的应用场景,建设更多的知识资源整个过程持续迭代下去,直至完成行业或者企业全面的智能化

采取由点及面的迭代式螺旋发展模式的根本原因有几点。首先、完整的知识资源建设是一个十分艰巨的任务知识资源建设任重道远,很难一蹴而就任哬一个普通人所掌握的知识都可以说是无边无界的。当前所构建的知识库离机器达到普通人认知世界所需要的知识水平还十分遥远

知识資源建设必定是一个持续完善的过程,很难毕其功于一役所以,应当谨慎选择应用痛点构建满足应用场景需要的相应知识资源。知识資源建设的基本原则是适度?!笆省笔侵付杂谔囟ㄓτ贸【暗氖逝?,“度”是指合理把控知识的边界与体量。其次,行业与企业的发展环境变化迅速,一成不变的知识库是难以适应快速变化的外部环境的

图2?知识图谱助力行业智能化的演进路径

知识图谱技术的落地与实践以知识圖谱系统的建设、实施与运营为主要内容。知识图谱系统是一类以知识图谱建设与应用为核心内容的人机协作系统本节对知识图谱系统嘚外部环境、系统要素以及基本架构展开介绍。

2.1 知识图谱系统的外部环境

作为一类大规模复杂系统知识图谱系统是作为企业更为庞大的信息系统或智能系统的一部分。与传统的信息系统相比较知识图谱构建与应用是知识图谱系统的基本标志。在当前企业信息化与智能化建设过程中知识图谱系统对于其他信息系统,起到了助推与赋能的作用而不是代替。各类管理信息系统(比如企业的财务、人事管理信息系统)以及智能信息系统(比如智能门禁系统、商务智能系统)有其自身存在的不可代替的价值

没有这些系统积累的数据与业务知識,知识图谱系统是建设难以成功知识图谱系统给其他信息系统带来认知能力,这种能力体现为一系列具体的认知服务知识图谱系统賦能其他信息系统这种关系决定了知识图谱建设不是“大破大立”式的另起炉灶与重新建设,而是“和风细雨”式的柔性改造与能力升级知识图谱与企业其他信息系统之间的关系如图3所示。

图3?知识图谱系统与其他业务系统之间的关系

随着知识图谱在领域与企业应用的普及知识图谱日益占据向上支撑应用、向下统摄数据的核心地位。如图4所示在一个典型的企业知识图谱系统中,知识图谱与数据之间的关系是双向的一方面各业务系统的数据是知识图谱构建的知识来源。另一方面知识图谱中的关联关系也为各业务数据的关联与融合提供叻支撑,使得自主普适的数据关联成为可能例如ID与身份证之间的同义关系可以指导相应字段的映射。

知识图谱系统与应用之间的关系也昰双向的一方面知识图谱系统的各类认知服务支撑企业的各种典型应用的智能化升级。另一方面各类应用为知识图谱系统提供反馈。這里的反馈包含两个主要内容一是对认知服务能力的效果的反馈,二是对于知识图谱中的知识质量的反馈在很多大型企业中,由于业務多元、服务多样对于技术与服务的平台化提出了诉求。越来越多的技术中台与业务中台的建设被提上了议事日程随着智能化技术的嶊进,中台的智能化已经成为鲜明趋势知识图谱向上支撑应用、向下统摄数据的这一核心地位,决定了知识图谱系统将成为未来智能化Φ台的核心引擎

图4 知识图谱系统向上支撑应用、向下统摄数据的核心地位

2.2 知识图谱系统关键要素

知识图谱系统的核心要素包括人、算法與数据。三者相互影响、密不可分共同构成了知识图谱系统的坚实基础。算法需要人定义特征、选择模型;算法需要标注数据;数据来洎人的活动来自人的标注;算法的结果支撑人的行为与决策。

图5 知识图谱系统的三个要素

这里的人是指知识图谱系统的各类人类角色囚是知识图谱系统的发起者、设计者、实施者与评价者,是知识图谱系统的核心知识图谱中的人员涉及众多角色,按照知识图谱系统生命周期的三个主要阶段可以分为几类角色

(1)在分析与论证阶段,需要领域专家与知识图谱系统工程师共同开展需求分析论述知识图譜系统建设的必要性与可行性。必要性从应用需求的迫切性与业务价值等角度进行评判?尚行源邮?葑试促鞲?、应用要求以及知识表示的複杂程度等角度来评估,并进一步合理规划知识图谱系统建设所需要的数据资源、人员投入以及成本投入等等(2)在设计与实施阶段,需要各类工程师完成数据治理、知识加工、算法设计以及样本标注等各环节的任务(3)在运营与评价阶段,需要运维工程师对于知识图譜系统进行长期运维需要用户对系统实施效果加以评价。

图6 知识图谱系统的人员角色

这里的数据是特指作为知识图谱知识来源的数据數据是符号化的记录,数据经过知识加工而成为知识知识是数据的结晶。知识图谱作为的大数据知识工程代表能否实现自动化知识获取是关键。而自动化知识获取的前提是数据

知识图谱系统所使用的数据类型众多,可以是事实数据、也可以是元数据(关于数据的数据);可以按照模态分为关系数据、文本数据、多媒体数据;也按照业务类型数据分为人事、财务、等各类数据;还可以按照来源分为内部數据与外部数据外部数据可以分为百科数据、Web数据、社交媒体、新闻媒体数据、企业内部业务数据等等;从业务知识的来源角度可以分為领域本体、叙词表、领域百科、企业社区等数据。

大数据的一个基本特点在于其多样性(Variety)知识图谱的来源同样是多样的,这对大规模知識加工提出可巨大挑战大规模知识工程需要应对来源不同、模式异构的数据自动加工整理成为知识的巨大复杂性。面向不同类型、不同來源的数据知识获取、知识验证等算法都需要定制。因此大规模自动化知识获取在数据处理层面就面临着的巨大挑战。

这里的算法是對于知识图谱系统整个生命周期中涉及的自动化计算过程、模型、策略的总称知识图谱构建、管理与应用等各个环节均涉及大量算法。知识构建环节包括知识的获取模型、知识的融合策略、知识的验证机制以及知识的评估方法知识管理环节,涉及知识图谱的模型、组织方法、索引方式、查询模型、检索方法等等知识应用环节,涉及基于知识图谱的语言理解模型、语义搜索模型、智能推荐模型、自然语訁问答模型、面向知识图谱的推理机制与解释方法等等

2.3 知识图谱系统的典型架构

知识图谱系统接受外部数据作为输入,历经数据处理、知识加工、知识管理和认知服务最终为各种场景下的应用提供认知服务能力。其基本过程如图7所示数据处理层接受原始数据作为输入,经过数据处理形成高质量的数据高质量的数据进入知识加工层,经过各种知识加工工序生成高质量的知识图谱大规模高质量的知识圖谱是知识管理层的主要管理对象。知识管理层提供知识图谱的存储、索引与检索能力这些基本的知识访问能力进一步支撑基于知识图譜的认知服务实现。

图7 知识图谱系统的主要流程

如图8所示数据处理层主要包括数据甄别、数据清洗、数据转换和数据融合等步骤。数据甄别旨在明确建立领域知识图谱的数据来源?赡芾醋曰チ??系牧煊虬倏婆廊?,可能来自通用百科图谱的导出可能来自内部业务数据的轉换,也可能来自外部业务系统的导入应该尽量选择结构化程度相对较高、质量较好的数据源,以尽可能降低知识获取代价

不同来源囿着不同的质量,需要不同的数据加工方式数据清洗、数据转换与数据融合等步骤与传统构建数据仓库所需要的数据处理相类似。数据清洗是对数据中的噪音特别是来自互联网的错误、虚假等信息进行清洗,对表示不规范的数据进行统一与规范化数据转换将不同形式、不同格式的数据转换成统一的表达形式。数据融合是针对不同来源的数据在数据层面进行融合这里的数据融合与后续的知识融合有相姒之处,也有不同之处后续的知识融合是在识别了实体、属性等知识要素之后完成的。而此处的数据融合是字段、元组等层次的融合數据或信息还未汇聚到实体上。

图8 数据处理层的主要流程

知识加工层是整个知识图谱系统的核心它接受数据处理层形成的高质量数据作為输入,输出高质量的知识图谱如图9所示,知识加工的核心有三步:知识表示+知识获取+知识验证知识表示旨在明确应用所需的知识表礻形式。知识获取在相应的知识表示框架下获取相应的知识实例知识验证对获取的知识质量展开验证。当存在多个数据来源时往往还需要知识融合针对不同来源的数据所获取的知识进行融合。质量提升可以作为单独的环节也可以融于知识获取的具体实现中。因此知識融合与质量提升都是可选的???

图9给出了知识加工在领域与企业应用中的具体步骤。在领域知识图谱应用中知识表示体现为模式设计,知识获取通常包含词汇挖掘、实体发现、关系发现等三个主要内容整个流程中的关键??榉直鸾樯苋缦拢?/p>

1、模式设计这一步与传统的夲体设计极为相似?;?灸勘晔前讶现?煊虻幕?究蚣芨秤杌??。内容包括指定领域的基本概念以及概念之间subclassof关系(比如足球领域需要建竝“足球运动员”是“运动员”的子类);明确领域的基本属性;明确属性的适用概念;明确属性值的类别或者范围。比如“效力球队”這个属性一般是定义在足球运动员这个概念上其合理取值是一个球队。

此外领域还需定义约束或规则,比如部分属性具有单值约束(仳如每个实体“出生日期”的取值单一)还有些属性对是互逆的(比如球队的“隶属球员”属性与球员的“效力球队”互逆)。这些元數据对于消除知识库不一致、提升知识库质量具有重要意义

2、词汇挖掘。人们从事某个行业的知识的学习都是从该行业的基本词汇开始的。在传统图书情报学领域领域知识的积累往往是从叙词表的构建开始的。叙词表里涵盖的大都是领域的主题词及这些词汇之间的基本语义关联。这一步需要识别领域的高质量词汇、同义词、缩写词以及领域的常见情感词。比如在政治领域需要知道特朗普又被称為“川普”,其英文简称为Trump

3、实体发现。需要指出的是领域词汇只是识别出领域中的重要短语和词汇但是这些短语未必是一个领域实體。从领域文本识别某个领域常见实体是理解领域文本和数据的关键一步在实体识别后,还需对实体进行归类能否把实体归到相应的類别(或者说将某个实体与领域类别或概念进行关联),是实体归类的基本目标是理解实体的关键步骤。比如将特朗普归类到政治人物、美国总统等类别对于理解特朗普的含义具有重要意义。

4、关系发现关系发现或者知识库中的关系实例填充,是整个领域知识图谱构建的重要步骤关系发现根据不同的问题模型又可以分为关系分类、关系抽取和开放关系抽取等不同变种。关系分类旨在将给定的实体对汾类到某个已知关系;关系抽取旨在从文本中抽取某个实体对的具体关系;开放关系抽?∣penIE)从文本中抽取出实体对之间的关系描述。也鈳以综合使用这几种模型与方法比如根据开放关系抽取得到的关系描述将实体对分类到知识库中的已知关系。

5、知识融合因为知识抽取来源多样,不同的来源得到的知识不尽相同这就对知识融合提出了需求。知识融合需要完成实体对齐、属性融合、值规范化等步骤實体对齐是识别不同来源的同一实体。属性融合是识别同一属性的不同描述不同来源的数据值通常有不同的格式、不同的单位或者不同嘚描述形式。比如日期有数十种表达方式这些需要规范化到统一格式。

6、质量提升知识图谱的质量是构建的核心问题。作为大规模知識表示数据驱动的构建方式是当前知识图谱的基本特点。语料的偏置(bias)以及自动化方法的错误势必导致知识图谱的质量问题:缺漏、錯误、陈旧因此需要对知识图谱进行补全、纠错和更新。质量提升对于大规模知识图谱的建设是不可或缺的

7、知识验证。知识验证是對知识图谱的质量最后把关仍然需要由人来完成最终的验证。对于数以亿计的大规模图谱全量验证代价极大,通常通过抽样完成验证也可以通过众包方式将验证任务分发给众包工人由众包工人完成验证。在人工验证环节待验证知识的组织(比如分组、排序等方式)對验证效率有着极大的影响,往往需要予以充分考虑总体而言,知识验证还有待从心理学、人机交互等多学科角度深入研究这一问题

經历了上述步骤之后得到一个初步的领域知识图谱。在实际应用中会得到不少反馈这些反馈作为输入进一步指导上述流程的完善,从而形成闭环此外,除了上述自动化构建的闭环流程还应充分考虑人工的干预。人工补充很多时候是行之有效的方法比如一旦发现部分知识缺漏或陈旧,可以通过特定的知识编辑工具实现知识的添加、删除和修改也可以利用众包手段将很多知识获取任务分发下去。

图9 知識加工层的的主要流程与关键??/p>

认知服务层是基于知识图谱提供认知能力,包括语言理解和认知服务两类基本能力以及推理引擎这一核心??,其典型架构如图15.10所示在语言理解层次,提供从自然语言到知识图谱中的知识要素的映射包括实体理解(实体链接)、概念理解(概念识别)、属性理解、主题理解(主题识别)等。在有些应用中需要将自然语言映射到事件描述框架因此还需要开展框架映射。

基于語言理解的基本能力形成认知服务,包括语义搜索、智能推荐、问答交互以及解释生成这些认知服务都是基于知识图谱所形成的。比洳知识图谱中的实体与概念可以帮助识别搜索中的实体或概念从而有助于搜索的意图识别。

在概念图谱支撑下可以实现基于上下位关系的推荐,比如搜索iPhone X通过其上位词高端手机推荐华为P20等。问答交互主要实现基于知识图谱的问答其中,问题理解、属性匹配、会话引導与答案生成都可以利用知识图谱的知识随着可解释需求日益增多,为机器决策生成解释日益重要比如从知识图谱中找到关联路径解釋实体对之间的关系(对应路径发现);为一个待解释问题匹配相应的知识图谱子图等等(对应解释匹配)。

图10 认知服务层的主要架构

此外在整个认知服务的实现过程中,推理引擎的实现也是十分重要的推理某种意义上是符号知识存在的最为独特的价值。知识图谱上推悝引擎的实现可以弥补知识的缺失提升系统的智能程度。

知识图谱上的推理有几种主要的实现方式第一、另行定义规则,以知识图谱莋为基本事实开展推理。比如通过定义“父亲的父亲是爷爷”这样的规则就可以从“A的父亲是B,B的父亲是C”推理出“C是A的爷爷”。苐二、基于知识图谱的分布式推理随着的流行,基于知识图谱的向量表示成为知识图谱中实体与关系重要表示方式给定实体h与t的向量表示(比如h,t)如果向量h,t的距离足够相近则推断h与t语义相近。第三、基于知识图谱上的显式推理这种推理方式将知识图谱建模为异构信息网络,当两个实体h与t在知识图谱之间存在多条可达路径且路径上的语义关联强度足够大,则推断h与t语义相近

显然基于图模型的显式推理可解释。事实上不难利用显式推理所找到的路径作为特征训练学习知识图谱的向量表示。在实际的应用中往往是多种推理机制並存,最后通过特定协同机制完成最终推理比如往往先用分布式推理进行粗筛选,再利用显式推理和基于规则的推理生成可解释结果並将最终推理结果呈现给终端用户。

知识管理层旨在实现知识图谱数据的有效管理和高效访问其主要??槿缤?1所示知识图谱的管理涉及知识图谱的建模、存储、索引和查询。在建模部分明确知识图谱的数据结构存储部分完成知识图谱在磁盘或者分布式环境下的存储与组織方式。为了加速大规模知识图谱上的查询通常需要建立相应的索引结构包括基于子结构的索引和关键字索引。最终基于这些索引方式實现各类查询包括特定子图结构的查询(比如路径、社区、一般子图等等)和关键字查询。

知识图谱系统的建设是个系统工程需要谨慎论证、详尽规划、有序推进、持续运营以及全面保障,这些都必须付诸工程实践才能实现知识图谱工程是以知识图谱系统的建设为核惢内容的一类工程实践。本章首先介绍知识图谱工程开展的基本原则再介绍知识图谱工程的过程模型、可行性分析以及实践建议。

知识圖谱工程实践过程中呈现出一些普适的基本原则坚持这些基本原则是保障知识图谱工程顺利实施的前提。

(1)合理定位为知识图谱项目设定合理的定位目标十分重要。期望过高或者期望明显高于当前技术水平会带来不良后果。我们首先必须心怀敬畏人类的智能是通過数百万年进化而成的。即便当前技术进步日新月异要在有限的数十年内让机器完全达到人类的认知水平仍然是个足够伟大的目标。任哬一个普通人在知识方面所具有的智能都是当前机器所无法企及的。

以当前的技术水平代替专家助理的工作是个合适的目标,代替领域专家的工作仍然十分困难专家的很多知识是隐性的,难以言明的难以外化的。专家之所以为专家是需要经年累月的学习与训练。專家所积累的不单单是简单的关联事实更涉及思维方式、场景适配、异常处理等知识。

这里涉及大量的元知识(meta-knowge也就是有关知识的知識)、涉及大量难以有效表示的知识。这些都是当前机器难以代替的而专家助理的工作则相对简单,是规则性的简单知识工作比如查找文件、整理文档、收发邮件等等,普通人只需要具备简单的词汇知识与基本事实即可胜任是有可能率先在实际应用场景取得成效的。

(2)应用牵引应用牵引的发展思路是与平台支撑的思路相对而言的。前者从应用出发明确技术需求。后者从技术能力与平台出发去适配应用在互联网飞速发展的时代,平台化思维成就了一批优秀的企业平台型模式一般较为简单,因而可以规?;?

以淘宝这类B2C平台为例,店家与消费以及平台之间的关系明确业务模式简单且具有同质化,这就为技术与业务的平台化提供了可能但是当前人工智能的发展哆以场景化应用为主?;?谥?锻计椎娜现?悄芑姑环⒄沟狡帐?、通用智能的阶段。不同应用不同场景所需要的知识表示不同、知识获取掱段不同、数据资源禀赋不同,这都决定了知识图谱技术平台化发展的异常艰难

(3)循序渐进。一颗苹果树上的苹果不可能同时成熟此时,最简单的策略就是先摘成熟的果子坐等其他苹果自然成熟再行采摘。同样知识图谱技术体系复杂多样,包括知识表示、知识抽取、知识融合、知识推理、知识存储和知识检索等每类关键技术的成熟度不同,有的已进入实用化阶段有的仍处于学术研究阶段。

一個产业的发展历程通常呈现出是部分技术先成熟再逐步带动相关技术发展的特点整个产业技术的成熟是需要经过漫长的发展周期的。企圖速战速决、毕其功于一役是不现实的知识图谱各项技术成熟程度不均衡是当前知识图谱产业实践的基本情形。大部分技术仍然停留在呮能在特定测试集上取得一定效果还难以在广泛而多样数据上取得稳定效果。具有较高产业成熟度的技术还不多

(4)先简后难。在知識图谱的整个技术栈中仍然存在一些瓶颈性难题,比如从文本中的知识获取仍然面临不少困难落地困难重重。即便是一个简单的中文汾词任务仍然需要大量的研究工作比如对短语“南京市长江大桥”进行分词,可以是“南京市+长江大桥”也可以是“南京市长+江大桥”,准确的分词有赖上下文语义的准确理解

因此,实际落地过程应遵循先简后难的原则:先从结构化程度高的数据中抽取出易于获得的語言知识(如叙词表、上下位概念)再从半结构化数据中抽取出世界知识(如,职业演员>),进而总结出业务知识(比如体温达到39喥可能感冒了),最后再处理决策知识.

(5)由粗到细知识表示是有粒度粗细之分的。比如在司法知识表示方面某个法律条款(比如“機动车变道,应打开相应的变道”)可作为合适的知识表示粒度也可以进一步细化为条件(机动车变道)与结果(打开相应的变道指示燈)。条件部分的知识表示还可以进一步细分为实体(机动车)与动作(变道)显然粒度越细表达越精准。

但是知识获取的难度也越大知识的不确定性也越强。比如在概念图谱中实例的概念归属往往随着概念粒度的变细而变得越加不确定。例如堡是个食物几乎没有囚会有异议,但若说汉堡是个健康食物则可能会有人反对。因此知识资源的建设应该遵循由粗到精,逐步求精的基本原则

(6)求同存异。知识是人们认知世界的结果不同的认知主体对于同一个世界的认识是有差异的,知识因而具有主观性在当前阶段去深究知识的主观性问题可能十分困难。知识的主观性差异往往是细微的不同人对于“高个子”到底多高会有量上的细微差别,但是没有人会认为2.2米還不是高个子

因此,比较务实的作法是求同存异搁置争议。随着系统的上线用户反馈数据日益增多,有争议的事实可以使用数据驅动的方法来加以界定。比如对于搜索“矮个子NBA球星”如果大部分用户在这一搜索关键词下,点击的球星都在1.8米以下那么1.8米以下对于NBA浗星而言或许就是矮个子。知识图谱落地中应该暂且搁置争议,先解决容易解决的问题剩下的问题在时机成熟时或许就自然能够解决。

(7)人机协同当前知识图谱的落地,需要机器和人二者缺一不可。传统知识工程对于人有着较强的依赖限制了知识库的规模与效鼡;大数据知识工程强调数据驱动的知识获取,依赖机器实现自动化知识获取但是当前的知识获取自动化仍然需要人的干预,人在环中仍是常态

当前的人工智能总体上是人类指导下的智能(Human supervised ),机器智能在以下几点需要人类的指导?;?餍枰?死嗵乇鹗橇煊蜃?腋秤杌?饕匀现?澜?、认知特定领域的基本概念框架比如领域本体或者领域模式的定义。其次机器需要人类标注样本、反馈结果。一个词汇是否是合适的领域词汇一幅病理图片是否指征相应的病变,这些都需要有着深刻的业务知识才能完成因此,人机协同时知识图谱工程推進的基本原则之一

图12 人在环中的人工智能发展模式

(8) 快速启动。很多行业或者企业在开展知识图谱项目时或多或少已经存在很多相关知識资源,比如领域本体、叙词表等等?;チ??系墓??丛匆泊嬖诓簧傧喙氐陌倏谱试?通用百科图谱已经涵盖了某个领域大量的实体。这些知识资源往往消耗了巨大人工成本经过多年持续积累而得是相关知识图谱构建的宝贵财富。充分利用这些资源提高领域知识图谱构建的起点,是知识图谱项目成功落地的关键思路之一

知识资源建设有个很有意思的现象,那就是从无到有的构建代价要显著高于在不完善的知识库上的完善代价此外,跨领域迁移也是降低构建成本的重要思路因为相近领域的知识是可以复用的,比如在给中国移动建设知识图谱时可以借鉴中国电信的知识图谱这个原则也意味着知识图谱落地过程中,将来会涌现出一大批面向特定行业提供知识图谱解决方案的企业因此,复用是知识资源建设的重要策略之一

知识图谱工程的生命周期包含三个主要阶段:分析与论证、设计与实施以及运營与评价。每个阶段作为后续阶段的输入三个阶段相继完成后,整个工程过程进入下一轮如此循环往复、迭代进行,直至实现智能化

(1)分析与论证。这一阶段的基本目标是明确知识图谱的应用目标分析知识图谱的业务价值,论证知识图谱项目上线的必要性;对所設定目标所涉及的数据资源、人员投入、资金投入等角度作出可行性评估以及投资收益分析;对于整个知识图谱工程项目的进行规划。

(2)设计与实施对知识图谱系统相关的、数据流程、系统架构、关键算法、系统等等进行设计,制定详细的设计方案;进行代码开发實现相关算法;集成相关系统,完成系统上线

(3)运营与评价。知识图谱工程是一种典型的智能化工程智能化相关的系统在建设完成後,仍然要经历多轮运营与优化在每一轮迭代,获取用户的使用日志、评估反馈是十分关键的这些反馈与日志是是下一轮建设或优化嘚输入,知识图谱工程持续演进的重要依据

图13 知识图谱工程过程演进模型

知识图谱系统的设计与实施环节从知识的加工流程角度来看包含四个重要环节:知识表示、知识获取、知识管理与知识应用。这四个环节循环迭代

知识应用环节明确应用场景,明确知识的应用方式知识表示定义了领域的基本认知框架,明确领域有哪些基本的概念概念之间有哪些基本的语义关联。比如企业家与企业之间的关系可鉯是创始人关系这是认知企业领域的基本知识。知识表示只提供机器认知的基本骨架还要通过知识获取环节来充实大量知识实例。比洳乔布斯是个企业家苹果公司是家企业,乔布斯与苹果公司就是“企业家-创始人-企业”这个关系的一个具体实例

知识实例获取完成之後,就是知识管理这个环节将知识加以存储与索引,并为上层应用提供高效的检索与查询方式实现高效的知识访问。四个环节环环相扣彼此构成相邻环节的输入与输出。在知识的具体应用过程中会不断得到用户的反馈,这些反馈会对知识表示、获取与管理提出新的偠求因此整个生命周期会不断迭代持续演进下去。

知识图谱技术仍然是发展中的技术很多技术还不成熟,因此做好可行性分析十分重偠知识图谱落地的可行性与以下几个因素关系密切。

(1)是否是封闭应用封闭的对立面就是开放。所谓开放性是指无法预期可能发生嘚事态从而无法有效预设先验规则?;谎灾?,在开放环境中机器很容易碰到无法合理处理的情形,因为这些情形没有被定义过、没有被描述过使得机器无所适从???判晕侍馐侵?豆こ棠酥琳?鋈斯ぶ悄艿母?灸烟?它与一系列我们经常提及的人工智能难题诸如常识理解、小样本学习、元学习都有着密切关系???判阅烟馐谴?匆淮未稳斯ぶ悄芎??摹白锟?鍪住?

开放性难题对于知识工程的挑战体现在知識的需求难以闭合。也就是说实际应用所需要的知识中往往会超出领域所预先设定的知识边界。比如在金融知识图谱落地过程中单单涵盖公司、法人、机构、产品这些核心往往不足以支撑智能应用?;?诮鹑谥?锻计椎墓亓?治鐾??崆3冻黾负跬蚴峦蛭?。比如诸如龙卷风等气候灾害,会使得农作物产量下降农业的出货量因而就会下降,农机的产量也就相应要下降从事农机发动机关键部件生产的公司业绩就会下降,相关公司的股票可能就会下跌

事实上,一切实体都身处在一个复杂的因果网络中世界是普遍关联的。这就导致沿着任何一个实体开展关联分析都极为容易超出预先设定的知识边界因此,行业应用中的知识需求难以封闭于领域知识的边界范围内而传統知识工程成功应用的场景,比如系统配置、数学定理证明都是相对封闭的应用。在几何定理的证明中不会用到推理规则之外的任何知識

(2)是否涉及常识。越少涉及常识越容易成功。常识是我们每个人都知道无需言明即可理解的知识常识获取与理解是通用人工智能实现的关键基础问题。常识难以建模、难以获取、机制不明等问题对大规模常识获取与理解提出了严峻挑战首先、常识难以建模。我們都知道太阳从东边升起人是两条腿走路的,鱼是在水里游的这些都是常识,但是如何严格界定则十分困难至今我们还给不出关于瑺识的严格定义。不同人所言及的“常识”在内涵与外延上是存在一定差异的

本段之初所阐述的“我们每个人都知道无需言明即可理解嘚知识”,这里的“我们”、“知识”、“言明”、“理解”都是很难再进一步严格定义的比如“我们”是指全体人类么?是否应该包含史前人类如果界定在当下的人类,那么精神病人呢儿童呢?几乎所有的常识定义都会遇到这样那样的挑战其次,常识难以获取峩们每个人都理解常识,因而不用挂在嘴边说明就能彼此理解。因此文本或者语料中对于常识鲜有提及,常识因而也就无从抽取常識缺失也就成了知识库的常态。

最后机制不明。人类究竟是如何形成常识理解的这是个非常值得深入思考的问题。我们人类的常识理解大都是以直接的近乎直觉的方式完成的水洒了,正常人都会及时躲避因为我们知道水会沾湿衣物。但是我们没有任何人是先思及“水会沾湿衣物”,再行躲避的那么机器是否也有着与人类类似的常识理解机制?机器的常识理解之路与人类是否一致这些问题均需偠进一步深入研究。

(3)是否涉及元知识(Meta-knowledge)所谓元知识是指有关知识的知识,包括属性的领域(Domain)与范围(Range)比如“父亲”作为属性发苼在人物这个类别的实体上(这是在指定Domain),取值也只能是个人物包括领域内的约束,比如父亲都必须比子女年龄大也可以是如何使鼡知识的知识,比如吃了不洁净的物品呕吐了我们立即就会判断有可能是不洁饮食导致的食物中毒??此萍虻サ呐卸辖?⒃谖颐悄芄坏饔靡窖е?缎纬山崧鄱?皇鞘?е?兜那疤嶂??为特定场景或应用适配相关知识,越来越多实际应用场景对这种元知识提出了诉求

总体而訁,元知识需求越大应用越加困难。其根本原因在机器归纳能力有限任何归纳都是按照既定的认知框架进行的。比如从样本学习一个汾类器本质上也是在归纳。但是分类器的模型不管是支持向量机还是深度模型都需要预先指定模型本身就是一类元知识。总体而言當前的机器智能还不足以自我发展出认知世界的框架。

需要说明的是上述判断条件都不是绝对的,都是相对的因此是一种定性判断,洏非定量判断满足上述条件,且程度越深实现越困难,但并非绝无实现之可能比如大部分互联网应用属于开放应用,但是知识图谱率先发轫于互联网搜索实则是因为应用相对简单。因此可行性还可以从复杂性的对立视角加以研判。

(1)简单知识知识是否有复杂簡单之分?如果承认这点知识的复杂性又应该如何度量?这些问题总体上还是开放问题但是,直觉上我们会觉得某些知识比其他知识簡单人类学习的先后顺序一定程度上就是顾及了知识的简单与复杂之分。没有人会否认疾病诊断、司法抗辩用到的知识会比叠个纸飞机鼡到的知识复杂

虽然知识的复杂性内在机理和评测机制仍不清楚,但是从操作层面来看可以从特定人群学习某类知识所需要时间来评估。比如考虑完成了基础教育(比如中国的九年制基础教育)的人群对于不同知识,这一人群学习周期不同显然对于某个企业的客服知识,几乎一周简单培训就可以上岗但是对于治病的知识,即便一个医学院学生可能也要学习十多年才能掌握

在自然语言相关的知识Φ,词汇知识的掌握难度小于语法与语义知识在知识图谱落地过程中,语言知识相对于业务知识而言简单;静态关联知识比动态过程知識简单这些直接决定了在知识图谱落地过程中,语言知识以及静态关联知识往往能优先于其知识形态形成应用效果

(2)简单应用。知識的应用也有复杂简单之分比如同样是在医疗领域,医院的导诊显然要比医生的看病要简单很多导诊只需要根据症状进行简单的分类,即便不够精准在具体科室医生治疗时还有进一步纠正的机会。然而医生看病本身则要复杂很多,一个医生要近十年的学习才有可能勝任疾病诊治的任务但是,应用本身的复杂性显然也是很难量化的在算法复杂性领域可以根据问题与输入规模之间的关系量化问题以忣相应方案的复杂性。但是知识应用的复杂性机制还不明确直觉上需要用到的知识越多、需要掌握的异常越多、所应用的规则分支繁复,则相应的应用越复杂

此外在领域或者企业知识图谱落地过程中,数据资源禀赋与知识资源积累也是可行性判断的两个重要的维度数據资源禀赋包括构建知识图谱所依赖的数据是否完整、数据质量是否足够精良、数据是否可用?巧妇难为无米之炊没有好的数据是提炼鈈出好的知识图谱的。很多企业数据完整性存在缺陷存在数据缺失,会对知识图谱构建造成巨大的障碍有些数据虽然完整,但是来源汾散、形态各异、质量低劣这些都会对数据治理本身提出巨大挑战。

在另外一些情况下数据可用性较低,比如存在行业壁垒数据无法分享;存在国家安全与个人隐私的顾虑,数据无法公开或者使用这些障碍都是数据层面对于知识图谱系统提出的挑战。领域或者行业知识资源的积累情况也是判断知识图谱工程可行性的重要因素在很多领域,已经积累了多年的相关知识资源比如医疗领域领域专家耗費了大量资源构建了很多本体、术语库。不同领域的知识资源积累情况不同知识资源越丰富,越有利于知识图谱工程的建设

表1对于上述提及的可行性判断要素进行了分类汇总,并给出了相应的问题检查列表以方便知识图谱工程实践的开展。

表1 知识图谱工程可行性论证檢查列表

3.4 知识图谱工程实践建议

知识图谱工程属于工程性学科不断总结其最佳实践是非常有必要的。本小节根据当前已经落地的知识图譜工程总结一些有代表性的经验值得注意的是,这些“经验”随着时间的推移、环境的变化也需要不断作出调整。

(1)合理控制知识表示的范围与粒度很多场景下知识表示的粒度是个需要仔细斟酌的问题。一般而言粒度越细表达能力越强,但是其表达与获取代价也樾大细粒度知识表示一般是领域应用的强需求之一。比如在知识管理领域粒度粗放已经成为阻碍企业知识管理发展的根本问题。传统知识搜索只能搜索到文档级别如果不幸这个文档含有1000页内容,则会给用户带来巨大麻烦但是,凡事过犹不及太细粒度的知识表示也往往会给知识获取带来巨大的复杂性。

合理控制知识表示的粒度不盲目求精求细,是知识库技术落地成功的关键思路之一很多落地实踐中过早地陷入细粒度知识获取的泥潭当中,消耗巨大但收效甚微但事实上细粒度的知识表示在很多场景下也是不必要的。因此在实踐中建议紧扣应用需求,从应用出发反推需要怎样粒度的知识表示

(2)合理控制不同视角下的不同图谱。知识图谱是认知世界的结果管理者视角与用户视角是不同的,不同用户的视角往往也是不同的比如龙,在东方人的视角下往往是吉祥的而在西方人的视角往往是兇恶的、有贬义的;“物美价廉的水果”这个品类对于不同人理解完全不同。因此不同的视角下应该有着不同的图谱

一般而言,要针对鈈同的角色定制相应的图谱。因而需要从一份通用图谱中演化出其不同视角下的不同视图如图14所示??悸堑酵寄P偷钠帐市?可以定制鈈同的权重(比如不同文化的视野下对于“龙”的喜好程度),以体现不同角色对于知识的不同认知

图14 知识图谱的不同视图

(3)区别对待冷启动与热运营两个阶段。知识图谱的建设与运营是两个不同的阶段要区别对待这两个阶段,两个不同的阶段采用不同的策略不能┅概而论。冷启动阶段的特点是缺乏用户行为数据各类基于用户反馈的模型很少能在这一阶段发挥效果,更多地需要借助专家经验与知識以人工方式设定很多参数与规则。在系统运营一段时间后用户反馈数据日益增多,使得基于反馈日志的学习模型成为可能比如搜索排序模型、推荐模型等等。表3总结了冷启动与热运营的不同思路与策略

表3 冷启动与热运营的不同策略

(4)建设与运营并重。建设与运營是知识图谱工程两个重要的阶段受传统信息化建设思路的影响,很多智能系统陷入了重建设轻运营的误区事实上,任何一个智能系統均需要经历多轮迭代方能成熟只有持续运营才能保持系统处于最佳状态。

智能系统的运营是数据驱动的数据驱动需要不断收集用户數据。用户数据体现的是用户兴趣与行为而用户的兴趣与行为是会随着环境的变化而变化的。一个有效的智能系统必须随着用户的演进洏演进否则容易失效。从长远看运营甚至重于建设。建设是一次性的而运营是持续的、长期的、周期性的、重复开展的。

(5)合理處理知识的扁平化与纵深化矛盾在实际知识图谱工程中,知识的广度(对应扁平化)与深度(对应纵深化)往往是一对不可调和的矛盾为了广度,往往要牺牲深度;为了深度往往要牺牲广度前者以通用知识图谱为例,通用知识图谱较为宽广但缺乏深度,体现在平均關系数小于相应的领域知识图谱深度知识在风险管控、安全防范等领域十分重要。恶意意图的行为往往具有隐蔽性等特点难以通过简單语义关联发现。因而相关图谱的建设要往纵深方向发展如图15所示,实际的知识图谱往往需要在知识的深度与广度之间进行平衡

图15 知識图谱中知识的广度与深度的平衡

(6)坚持迭代式演进路径。螺旋迭代式发展是知识图谱工程实践有序推进的基本模式在整个知识图谱笁程中,有着大量迭代模型比如,知识资源建设与知识应用的迭代式演进(见图2)、知识图谱工程的三个关键步骤的迭代(见图13)此外还包括知识库积累与知识抽取模型的迭代发展:一方面积累知识库,另一方面利用积累的知识指导知识抽取进而利用更先进的抽取模型抽取更多更好的知识。

还包括知识图谱系统建设与知识图谱系统运营的迭代:建设完成之后通过运营得到的用户反馈数据进一步指导知识图谱系统建设与优化。迭代模式之所以重要其根本原因在于知识图谱技术的任何单项技术还难以支撑实际应用。实际问题的解决尚需多个单点技术的协同迭代式发展意味知识图谱的长期发展过程是迂回曲折的,是渐进式发展的道路

(7)区别对待静态知识与动态知識。人类对世界的认识是在不断变化的因此,体现在知识库中的知识也不应该是一成不变的知识的动态变化是绝对的,静止不变是相對的但是绝大部分知识在有限时间内变化的可能性是极低的,比如地球是圆的在很长一段时间人们对于这个事实的信念是不会发生改變的。

对于知识图谱中的数据处理与之类似,要区别对待静态知识和动态知识一般而言事实是相对易变的,而模式是相对不变的比洳机构的领导人过一段时间就会发生变化,但是人与机构之间的这种任职关系发生改变的可能性要低很多属于相对不变的知识。易变事實的更新十分重要常常需要依赖数据驱动方法。而模式的改变由于更新频次相对较低手工维护更为明智。

本章针对知识图谱技术实践Φ的几个关键问题包括知识图谱系统、知识图谱工程以及知识图谱应用与产业,做了初步探讨随着知识图谱技术应用的深化,知识图譜产业日益成熟将会对知识图谱的工程实践方面提出更多的需求。

这里对于知识图谱与系统科学(特别是系统工程和管理信息系统)之間的关系做一初步讨论首先,知识图谱工程非常迫切地需要来自系统科学的理论指引与方法论指导系统科学作为一般系统的基本原理嘚科学对于知识图谱也是具有指导意义的。但是另一方面传统的系统科学对于当前大数据人工智能系统的实践缺乏有力的支撑。

应该说当前的人工智能系统本质上是数据驱动的智能系统。这类智能系统在数据驱动与人机协作等方面与传统信息系统有着根本不同比如在數据驱动方面,智能系统的数据大都作为模型训练之用传统信息系统的数据大都只作为用户查询或者简单统计分析的来源而已;在人机協作方面,智能系统的人的作用在于让机器具备认知框架、给予机器模型学习以适当的反馈与引导而传统信息系统的人的作用更多地体現为系统语义、规则的制定,以及系统的使用与反馈

因此,传统的系统科学以及信息系统理论仍需进一步发展以满足以知识图谱为代表嘚智能系统的建设与实施的需要从系统科学角度从新思考智能系统(特别是大数据人工智能系统)的一般性原则与方法是个极为迫切的研究问题。

肖仰华教授主编的知识图谱教材《知识图谱:概念与技术》即将出版全面解析知识图谱的概念与技术。敬请关注

}

我要回帖

更多关于 实时浏览量是什么意思 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信