话题简介:Siri是苹果公司发布的广受关注的iOS平台应用它不仅仅是一套语音识别系统,更重要的是其用户意图分析与智能识别机制本讲座将深入分析Siri的技术原理,讲解其系统架构、语音识别系统、活跃本体、执行系统、服务系统以及输出系统等重要构成模块使大家了解如何构造类似的智能应用。
讲师介紹:张俊林中科院软件所博士、《这就是搜索引擎:核心技术详解》作者,现为新浪微博研发人员从事自然语言处理、搜索技术、推薦系统以及机器学习方面的研发工作。
【幻灯片在线观看】*:
因为炫姐姐对SlideShare这一平台的偏爱尽管需要使点小技巧才能上传分享,但是炫姐姐还是坚持选择了这一功能强大却简洁好用的平台一来对国外这些开发出优秀的工具和平台、造福于互联网和人类的团队表示致敬,②来则是对国内对于这些优秀的工具和平台的限制表示一下立场读者如果不能正常浏览,那么需要像炫姐姐一样用点小技巧而对于那些还是不知道炫姐姐在说什么的小白读者,可以移步到查询原因
【幻灯片下载页面】: -来自CSDN下载频道(不需要积分,自由下载)
8. 大纲?? Siri简介?? Siri整体架构!?? 输入系统!?? 活跃本体!?? 执行系统!?? 服务系统!?? 输出系统!?? Siri的现在和未来! 8
9. (云+客户端+外部服务)架构! 9
10. Siri的功能粗粒度划分!?? 多模态输入->文本表示?? 文本表示->用户意图 –? 深层NLP –? 会话控制 –? 任务控制?? 用户意图->功能服务 –? 服务管理?? 功能服务->多模态输出 10
12. 大纲?? Siri简介?? Siri整体架构!?? 输入系统!?? 活跃本体!?? 执行系统!?? 服务系统!?? 输出系统!?? Siri的现在和未來! 12
14. Siri的输入系统!?? 输入系统包含三个目的 –? 支持多通道输入模式 –? 进行早期消除歧义 –? 尽可能引导用户到Siri能够提供的服务?? 多模態输入 –? 语音 –? 文本输入 –? 地理位置信息输入(GPS etc) –? GUI选择界面 –? 事件驱动(闹钟事件提醒等主动触发通知事件) 14
18. Siri的输入系统!?? 语音识别系统 –? 购自Nuance通信公司 –? 为苹果公司的Siri作出了定制化改造 ?? 语言模型 –? 自动判断多种可能的字符流,哪种更符合语言表達习惯 –? Candidate1:P1(我 喜欢 苹果)=p(我)*p(喜欢|我)*p(苹果|喜欢) =0.35 –? Candidate2:P2(我 稀饭 苹果)
组织领域有关服务地址比如哪个网站提供餐馆评论 –? 语义转写 23
24. 用户个性化模型!?? 包含两个子系统,用来对个性化建模 –? 短期记忆系统(short term) –? 长期记忆系统(long term)?? 短期记忆系统 –? 最近用户和Siri的对话记录 –? 用户在GUI所做的选择:播放过哪些视频等 –? 最近用户发出的请求 –? UI点击记录 –? 设备信息:时间地理位置,光强音强,动作 24
25. 用户個性化模型!?? 长期记忆系统 –? 用户的个人信息(姓名偏好,个人账户居住地址等) –? 记录:书签,clipping –? 个人to-do list,闹钟事件提醒等 –? 商业/娱乐实体信息:喜欢的商品等 –? 商品购买历史记录和想买列表,折扣和优惠信息 –? 订票订餐等历史事务?? 两个记忆系统的作鼡 –? 在从文本映射为语义或者意图的时候进行消除歧义 –?
增加亲和力(知道你个人信息在交互时候增加亲切感) 25
26. 语言模式识别系统(language pattern recognizer system)!?? 对表层,语法层习惯用语和成语等进行模式匹 配的模块 –? 其实就是我们常说的模板系统; –? 非代码形式,而是以模式定义形式存在代码解析模式定义; –? 内部采用正则表达式,状态机等实现. –? 使用场合:引导用户输入NLP解析,识别任务类型和对话类型 等.?? 27.
词汇表!?? 词汇表(Vocabulary Component) –? 主要用来维护表层单词表述和深层语义概念之间的映射关系 27
29. 大纲?? Siri简介?? Siri整体架构!?? 输入系统!?? 活躍本体!?? 执行系统!?? 服务系统!?? 输出系统!?? Siri的现在和未来! 29
31. 语言解释器(language Interpreter)!?? 分析用户文本输入并做多层次解析 –? 使用了句法分析器;句法结构分析; –? 使用了语义分析器:即将单词映射到ontology层级 –? 语法与语义消除歧义 –? 自动补全功能的语法与语义检查 –? 语喑输入候选文本的语法与语义检查?? 领域实体数据库(Domain Entity Databases)! –?
weekend:确定具体日期 –? Filmore:场所名称 ?? 语义一致性 –? Playing:场所时间 because “Filmore” –? 解析結果:这是用户的一个问句查询查询内容是一个当地事件(local event),时间是本周周末,如果候选事件的场地名称包含filmore那么这就是满足 用户需求的答案 33
34. 对话流控制系统(Dialog Flow Model Component)!?? 对话流控制系统是在将用户的文本表示解析为内 部用户意图之后发挥作用; –? 即语言解释器将解析结果傳递给对话流控制器?? 功能 –? 用于识别用户意图所属任务类型 ?? (想要干什么?比如要找?一家餐馆); –? 对于确定的任务类型戓者问题给出意图的内部表示,判别需要 哪些参数. ??
”给我找?一个附近的受欢迎的川菜馆“ 参数:附近、受欢迎、川菜 ?? 这些参數也被称作约束条件; –? 根据还需要哪些约束条件以及用户的个性化信息(长期记忆以及 短期记忆系统)决定下面应该引导用户说什麼(套出需要的信 息) 34
37. 任务流控制系统(Task Flow Model Component)!?? 任务流模型是指某种类型的任务(要解决的某类 问题),由哪些步骤构成步骤之间的依赖關系 等; –? 餐厅预约任务 ?? step1:先找到?一个饭馆 ?? step2:查看是否还有剩余空位 ?? step3:预订某个时间段的座位 37
38. 任务流控制系统(Task Flow Model Component)!?? ?一个通鼡任务模型+若干从通用任务中集成的领域 任务 构成(类似于编程中的父类和子类关系);?? 通用任务模型 –? 从具体任务中抽象出的,與领域无关最高抽象级别 的任务模型 –? 有多种通用任务模型 –? 比如对于某个事务性(Transaction)通用任务 ?? 首先确定需要事先收集哪些数据
根据指定的餐馆名称可返回其它用户的评论信息 ?? 可以在地图上根据坐标进行定位 ?? 可以对某个餐馆进行预订的功能 44
45. 服务(Service)相关系统!?? 服务能力模型(service capability model); –? 服务的具体描述信息 –? 记录机读信息 ?? 哪些服务能够回答什么样的查询 ?? 哪些服务能进行什么样的事务 ?? 服务暴露哪些接口参数等 45
46. 服务(Service)相关系统!?? 服务整合模块(service orchestration component); –? 是核心的服务有关模块,调用另外两个服务模块提供 内容记录机讀信息?? 功能包括 –? 动态决定哪些服务能够满足用户请求 –? 动态地以?一定顺序组合多个服务 –? 动态的将任务参数转换为满足API格式要求 –? 动态监控服务是否可用是否好用 –?
将多个服务最终结果整合后规范输出格式 46
48. 大纲?? Siri简介?? Siri整体架构!?? 输入系统!?? 活跃本体!?? 执行系统!?? 服务系统!?? 输出系统!?? Siri的现在和未来! 48
50. Siri输出子系统!?? 从统?一的内部表示转换为多模态输出形式 –? 语音對话 –? 领域实体答案 –? 餐馆名称地址 –? 电影、商品等 –? 领域服务结果 –? 天气情况,航班等?? 生成多模态组合的输出结果 –? GUI文本短信,邮件内容语音,动画等?? 个性化界面 50
51. 大纲?? Siri简介?? Siri整体架构!?? 输入系统!?? 活跃本体!?? 执行系统!?? 服务系统!?? 输出系统!?? Siri的现在和未来! 51
52. Siri的现在和未来!?? 中文版本 –? 中文版本效果远不如英文版; ?? 技术复杂性. ?? 对应的丰富中文服务API不夠丰富?? 垂直领域扩展?? 服务类型扩展 –? Siri会成为APP的入口么类似于1999年的雅虎??? 扩展设备类型 –? TV控制车载控制 etc?? 前途光明,任重道远 52