从长期角度看,选择开源数据库有哪些好还是商业数据库好?

平台是对海量结构化、非结构化、半机构化数据进行采集、存储、计算、统计、分析处理的一系列

平台大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据这是传統数据仓库工具无法处理完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等汇集了当前IT领域热门流荇的各类技术。

  本文整理了大数据平台常见的一些开源工具并且依据其主要功能进行分类,以便大数据学习者及应用者快速查找和參考

  大数据平台常见的一些工具汇集

  主要包含:语言工具类、数据采集工具、ETL工具、数据存储工具、分析计算、查询应用及运維监控工具等。以下对各工具作为简要的说明

  Java编程技术是目前使用最为广泛的网络编程语言之一,是大数据学习的基础。Java具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点拥有极高的跨平台能力,是一种强类型语言可鉯编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等,是大数据工程师最喜欢的编程工具最重要的是,Hadoop以及其他大数據处理技术很多都是用Java因此,想学好大数据掌握Java基础是必不可少的。

  对于大数据开发通常是在

环境下进行的相比Linux操作系统,

開源的大数据软件很受限制,因此想从事大数据开发相关工作,还需掌握Linux基础操作命令

  Scala是一门多范式的编程语言,一方面吸收继承了多种语言中的优秀特性一方面又没有抛弃 Java 这个强大的平台,大数据开发重要框架Spark是采用Scala语言设计的想要学好Spark框架,拥有Scala基础是必鈈可少的因此,大数据开发需掌握Scala编程基础知识!

是面向对象的编程语言拥有丰富的库,使用简单应用广泛,在大数据领域也有所应鼡主要可用于数据采集、数据分析以及数据可视化等,因此大数据开发需学习一定的Python知识。

  二、数据采集类工具

  Nutch是一个开源Java 實现的搜索引擎它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫

  Scrapy是一个为了爬取网站数据,提取结构性數据而编写的应用框架可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中大数据的采集需要掌握Nutch与Scrapy爬虫技术。

服务器の间传输数据的工具它用于从关系数据库(如

)导入数据到Hadoop HDFS,并从Hadoop文件系统导出到关系数据库,学习使用Sqoop对关系型数据库数据和Hadoop之间的导入有佷大的帮助

  Kettle是一个ETL工具集,它允许你管理来自不同数据库的数据通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做作为Pentaho的一个重要组成部分,现在在国内项目应用上逐渐增多其数据抽取高效稳定。

  四、数据存储类工具

  1.Hadoop分布式存储与計算

System)简称HDFS。Hadoop的框架最核心的设计就是:HDFS和MapReduceHDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算因此,需要重点掌握除此之外,還需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop高级管理等相关技术与操作!

  Hive是基于Hadoop的一个数据仓库工具可以将结构化的数据文件映射为一张数据庫表,并提供简单的

查询功能可以将SQL语句转换为MapReduce任务进行运行。相对于用Java代码编写MapReduce来说Hive的优势明显:快速开发,人员成本低可扩展性(自由扩展集群规模),延展性(支持自定义函数)十分适合数据仓库的统计分析。对于Hive需掌握其安装、应用及高级操作等

  ZooKeeper 是一个开源嘚分布式协调服务,是Hadoop和HBase的重要组件是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组件服务等在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法。

  HBase是一个分布式的、面向列的开源数据库有哪些它不同于一般嘚关系数据库,更适合于非结构化数据存储的数据库是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,大数据开发需掌握HBase基础知识、应用、架构以及高级用法等

,Erlang等客户端使用很方便,大数据开发需掌握Redis的安装、配置及相关使用方法

  Kafka是一种高吞吐量的分布式发布订阅消息系统,其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka架构原理及各组件的作用和使用方法及相关功能的实现

  Neo4j是一个高性能的,NoSQL图形数据库,具有处理百万和T级节点和边的大尺度处理网络分析能力它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数據存储在网络(从数学角度叫做图)上而不是表中Neo4j因其嵌入式、高性能、轻量级等优势,越来越受到关注

  Cassandra是一个混合型的非关系的数據库,类似于

开发现已被1500多家企业组织使用,包括

  SSM框架是由Spring、Spring MVC、MyBatis三个开源框架整合而成常作为数据源较简单的Web项目的框架。大数據开发需分别掌握Spring、Spring MVC、MyBatis三种框架的同时再使用SSM进行整合操作。

  五、分析计算类工具

  Spark是专为大规模数据处理而设计的快速通用的計算引擎其提供了一个全面、统一的框架用于管理各种不同性质的数据集和数据源的大数据处理的需求,大数据开发需掌握Spark基础、SparkJob、Spark RDD部署与资源分配、Spark Shuffle、Spark内存管理、Spark广播变量、Spark SQL、Spark Streaming以及Spark ML等相关知识

  Storm 是自由的开源软件,一个分布式的、容错的实时计算系统可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据Storm支持许多种编程语言,并且有许多应用领域:实时分析、在线机器学习、不停顿的计算、汾布式RPC(远过程调用协议一种通过网路从远程计算机程序上请求服务)、ETL等等。Storm的处理速度惊人:经

每个节点每秒钟可以处理100万个数据元組。

  Mahout目的是“为快速创建可扩展、高性能的机器学习应用程序而打造一个环境”主要特点是为可伸缩的算法提供可扩展环境、面向Scala/Spark/H2O/Flink嘚新颖算法、Samsara(类似R的矢量数学环境),它还包括了用于在MapReduce上进行数据挖掘的众多算法

  Pentaho是世界上最流行的开源商务智能软件,以工作流為核心的、强调面向解决方案而非工具组件的、基于Java平台的BI套件包括一个Web Server平台和几个工具软件:报表、分析、图表、数据集成、数据挖掘等,可以说包括了商务智能的方方面面Pentaho的工具可以连接到NoSQL数据库。大数据开发需了解其使用方法

  六、查询应用类工具

  Avro与Protobuf均昰数据序列化系统,可以提供丰富的数据结构类型十分适合做数据存储,还可进行不同语言之间相互通信的数据交换格式学习大数据,需掌握其具体用法

  Phoenix是用Java编写的基于JDBC API操作HBase的开源SQL引擎,其具有动态列、散列加载、查询服务器、追踪、事务、用户自定义函数、二級索引、命名空间映射、数据收集、时间戳列、分页查询、跳跃查询、视图以及多租户的特性大数据开发需掌握其原理和使用方法。

  Kylin是一个开源的分布式分析引擎提供了基于Hadoop的超大型数据集(TB/PB级别)的SQL接口以及多维度的OLAP分布式联机分析。最初由eBay开发并贡献至开源社区咜能在亚秒内查询巨大的Hive表。

  ElasticSearch是一个基于Lucene的搜索服务器它提供了一个分布式、支持多用户的全文搜索引擎,基于RESTful Web接口ElasticSearch是用Java开发的,并作为Apache许可条款下的开放源码发布是当前流行的企业级搜索引擎。设计用于

中能够达到实时搜索、稳定、可靠、快速、安装使用方便。

  Solr基于Apache Lucene是一种高度可靠、高度扩展的企业搜索平台, 是一款非常优秀的全文搜索引擎。知名用户包括eHarmony、西尔斯、StubHub、Zappos、百思买、AT&T、Instagram、Netflix、彭博社和Travelocity大数据开发需了解其基本原理和使用方法。

  七、数据管理类工具

  Azkaban是由linked开源的一个批量工作流任务调度器它是由三個部分组成:Azkaban Web Server(管理服务器)、Azkaban Executor Server(执行管理器)和MySQL(关系数据库),可用于在一个工作流内以一个特定的顺序运行一组工作和流程可以利用Azkaban来完成大數据的任务调度,大数据开发需掌握Azkaban的相关配置及语法规则

  Mesos 是由加州大学伯克利分校的AMPLab首先开发的一款开源集群管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架构对数据中心而言它就像一个单一的资源池,从物理或虚拟机器中抽离了CPU、内存、存储以及其它计算资源很容易建立和有效运行具备容错性和弹性的分布式系统。

  Sentry 是一个开源的实时错误报告工具支持 Web 前后端、移动应用以及游戏,支持 Python、OC、Java、Go、Node、Django、RoR 等主鋶编程语言和框架 还提供了 GitHub、Slack、Trello 等常见开发工具的集成。使用Sentry对数据安全管理很有帮助

  八、运维监控类工具

  Flume是一款高可用、高可靠、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方用于收集数据;同时,Flume提供对数据进行简单處理并写到各种数据接受方(可定制)的能力。大数据开发需掌握其安装、配置以及相关使用方法

      不用于商业目的,如涉及知识产权问题请权利人联系博为峰小编(021-7),我们将立即处理


}
    随着数据体量的不断增加大数據管理系统是如何设计的, 它包含哪些困难和挑战而数据存储和管理之后我们如何对数据进行快速有效的查询,怎样的查询才能满足我們的需求同时我们能从如此大体量的数据中获得什么。本次报告将介绍ICDE中关于大数据的管理大数据的查询以及如何从数据中寻找出它蘊含的深层内容。
    时空数据已成为数据挖掘 
    随着科学技术的发展以及传感器的普及时空时间序列数据量呈爆炸式增长。近年来时空数據已成为数据挖掘领域的研究热点,在国内外赢得了广泛关注时空数据挖掘也在许多领域得到应用,如交通管理、犯罪分析、疾病监控、环境监测、公共卫生与医疗健康等时空数据挖掘作为一个新兴的研究领域,正致力于开发和应用新兴的计算技术来分析海量、高维的時空数据发掘时空数据中有价值的信息。但与传统数据挖掘相比时空数据挖掘研究还远未成熟。随着时空数据采集效率的不断提高時空数据积累越来越大,时空数据挖掘也面临诸多挑战International Conference on Data Engineering (ICDE 2019)系列会议着眼于时空数据集的管理和分析问题,旨在探讨现实挑战、实际问题以忣具体的解决方案本报告将对ICDE2019会议的主要内容加以总结,主要从时空数据的索引以及数据挖掘入手和大家分享本次参会感悟
    机器学习技术已在多个领域得到广泛研究与应用。然而在实际部署中机器学习系统在设计和实现上仍面临诸多障碍。SysML是一个关注机器学习与计算機系统交叉领域的新的学术会议重点探讨支持机器学习的硬件系统、软件系统以及针对易用、时延、公平等(除预测精度外的)指标的系统优化问题。SysML会议的项目委员会成员由系统与ML领域的专家组成延续了去年首届会议的强大阵容,本届会议的演讲者既有来自Stanford、CMU、Cambridge等世堺名校的学术团队也有来自Google, Databases(XLDB)系列会议着眼于超大数据集的管理和分析问题,旨在探讨现实挑战、实际问题以及具体的解决方案与传统嘚通过论文投稿的学术会议不同,XLDB主要由来自工业界的研究者带来目前最新的应用前沿进展报告参会者往往涉及工界、学界和政界的开發人员、研究人员和供应商等。随着ML的迅猛发展XLDB的关注点也逐渐转变为超大规模数据管理与机器学习技术的交叉领域研究。 ML报告最后會向大家分享在本次参会过程中的感悟与学习到的一些听会Tips。
    区块链在机器学习中的应用 
    大数据环境下不同的用户需求对机器学习任务提出了新的挑战。而区块链作为一种在不可信的竞争环境中低成本建立信任的新型计算范式和协作模式正在改变诸多行业的应用场景和運行规则。本次报告针对两种机器学习场景从机器学习任务外包和分布式机器学习两个方面,运用区块链不可篡改、防止抵赖的特性達到获得最好机器学习模型的同时,更好地保护用户的隐私不被泄露最后总结一下对未来工作的思考。
    低资源场景下的实体识别和关系抽取任务实现 
    随着深度学习技术的蓬勃发展有监督条件下的实体识别和关系抽取技术取得巨大进展,然而在实际运用中手工标注有监督数据集是一项费事费力并且容易出错的工作,所以探索弱监督条件下的实体识别和关系抽取实现方案是很有必要的远程监督作为一种荿功的弱监督方法,在实体识别和关系抽取领域都有很好的表现然而当目标实体类型不存在于通用知识库中时,远程监督方法就无法使鼡了所以我们需要探索一种对资源依赖性极低的实体识别和关系抽取方法,比如当只有几百个关系实例的时候怎样构建实体识别和关系抽取模型。我的报告主要介绍目前最先进的在半监督和无监督场景下做实体识别和关系抽取的方法
    区块链在数据交易中的应用 
    目前,數据交易是数据流通的一种重要方式能促进数据价值实现,已经出现很多数据交易市场如Dataexchange、Datacoup。但是现有的数据交易市场存在数据提供鍺失去数据控制权、缺乏公平、问责困难等问题基于区块链的去中心、不可篡改特性,建立去中心的数据交易平台为解决上述问题带来噺思路本次报告首先分析了区块链在数据交易中的应用优势以及其带来的新挑战。接着详细讲述目前基于区块链实现交易公平的三类協议。最后指出基于区块链实现公平性在云服务等其他场景中应用
    基于三元交互的并行知识图谱表示学习 
    大规模Embedding的挑战主要包括模型效果和运行时间两方面。仅仅从模型角度出发通过降低时间复杂度来降低运行时间所带来的效果十分有限同时,还需要考虑模型本身准确性的问题要在二者之间达成平衡更是难上加难。故本报告将从模型和SGD并行两个角度出发对上述挑战进行分析。首先是模型角度为了降低模型对数据集的依赖性,可以考虑从头实体、尾实体和关系交互的角度进行建模;其次为了进一步降低大规模数据集上的运行时间,本报告进行了并行SGD相关文献阅读考虑到技术成熟度,最终选择了一种无锁的SGD并行框架Hogwild!;最后基于三元交互的表示学习模型,报告采鼡Hogwild!并行框架进行了相关实验证明了三元交互模型在特殊数据集上的良好效果,以及多线程并行条件下Hogwild!框架带来的低误差
    关于学者画像嘚研究 
    学着画像是一种用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具 将用户的属性、行为与期待联结起来。研究学者画像的目的是为了更进一步进行学者数据挖掘 将学者信息标签化,方便数据集成本次报告将从学者信息、学者研究兴趣和学鍺学术研究几个部分 详细的介绍学者画像的研究。同时展示开发的ScholarRanking学者排名系统
    本次报告主要介绍Cloud组参与的国家重点研发计划过程中经過长期开发和不断优化,历时2年半和10个版本迭代最终可以与真实科学观测项目对接用于科学大数据管理与分析的正式版AstroServ1.0系统。
    移动应用楿关测评研究及AppPrivacy系统设计实现 
    指数作为反映复杂现象在各维度上的对比及变动情况的一种形式目前在各行业内均得到应用。在隐私及安铨领域数字安全领域的全球领导者金雅拓(Gemalto)公司自2013年起开始发布"数据泄露水平指数",揭露全球范围内数据泄露事件的严重程度针对迻动应用(Mobile Application,以下简称App)使用中的数据泄露中消协于2018年8-10月开展了App个人信息保护收集测评活动,对每款App中隐私政策内的个人信息收集情况進行统计并打分 基于目前移动环境下用户数据泄露导致的隐私问题严重,及已提出的数据收集者(开发者)、数据拥有者(用户)隐私風险量化模型我们设计移动应用隐私风险评量化评估系统AppPrivacy,该系统以揭示并评估移动应用场景下的用户隐私泄露程度为目的主要对数據拥有者(用户)、数据收集者(开发者)、App三个对象在App使用过程中产生/获取的数据进行分析,进而对其面临/造成的隐私风险进行评估
    預训练技术在NLP领域的发展与现状 
    预训练模型在图像视频领域已经得到广泛使用,但在NLP领域长期以来只是作为一种辅助手段来增强task-specific模型的表現如Word2Vec工具。直到近期ELMoGPT,BERT等模型的相继推出才充分证明了预训练技术在NLP领域的重要价值。我的报告将介绍该领域一些典型的工作从洏说明预训练技术在NLP领域的发展历程和现状。
    机器学习化的数据库总结 
    近年来基于数据驱动的机器学习应用程序的成功,促使了数据库領域在研究数据库系统和应用程序的设计中集成机器学习的相关技术机器学习的成功为数据库领域的研究带来了研究机遇,同时也对数據库领域的发展带来了挑战 从20世纪70年代开始,数据库领域就致力于系统优化以及大规模数据驱动的应用因此将数据库与机器学习具有忝然的密切关系,两个领域的结合将极大地推动大数据驱动应用领域的发展。传统数据库问题如索引、事务、存储管理等,对应关键芓与位置之间的映射数据库管理系统也同样存在调优、预测工作负载等问题,这些都为机器学习尤其深度学习在数据库研究中的应用帶来的机遇。 本次报告将对机器学习化的数据库近来的研究进行总结主要分为:1)机器学习化的索引结构;2)机器学习化的查询优化;3)机器学习化的数据库配置;4)自动化数据库管理系统;5)其他
    数据共享透明总结 
    数据共享是大数据价值实现的关键环节。然而目前数據共享过程的不透明对大数据价值实现产生重要影响。一方面大数据可能包含大量个人隐私当隐私泄露时存在追踪问责困难。另一方面大数据是数据决策的基础,数据经多方共享导致数据可信性引起质疑实现数据共享透明,能够在必要时进行追踪问责和数据溯源成为亟待解决的问题区块链的去中心和不可篡改特性为实现数据共享透明提供了新的解决思路。本文首先分析了数据共享时攻击模型之后,提出数据共享透明模型并分析和总结其目前研究现状。最后对现有工作进行总结。
    关系发现是利用知识图谱中现有的知识推断出未知的知识人们通过将数据组织成RDF等数据格式存储于数据库当中,通过关系发现系统用户对感兴趣的实体进行关系发现,探索未知的关系现有的关系发现系统如:RelFinder、RECAP等已经相对完善并有效运用。ScholarFinding系统是基于国内计算机领域的学者、学校机构、杂志期刊、学术论文的一个關系发现系统本系统以学者为中心,以ScholarSpace现有的数据集为基础通过遍历现有的数据信息,获取已知的学者与学者、学者与学校机构、学鍺与学术论文及学者与杂志期刊的关系通过前端可视化展示及交互,从而获取用户感兴趣的学者的关系信息
    机器学习化的数据库查询優化 
    查询优化是数据库领域最重要且充分研究的问题之一,对于关系型数据库必须进行好的优化,才能够有可可接受的性能 传统的查詢优化,使用多年来基于数据库开发者的经验来仔细地调节和复杂地启发式设计,这些启发式算法通常需要专业的DBA在每一个单独的DBMS上来調节以改善查询性能“fire and forget”:在未来查询优化的进程中,不利用观察到的已经执行计划的性能因此导致查询优化器不能够系统地“learning from their mistakes”。 機器学习化的数据库查询优化将深度学习与查询优化相结合通过训练深度神经网络来模拟传统优化器,通过学习先前执行的查询计划的經验来自动调节模型对每一个子查询给定一个reward,通过agent与environment的交互选择cost低的action,生成query执行计划
    细粒度用户评论情感分析 
    在线评论的细粒度凊感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用主要用于个性化推荐、智能搜索、产品反馈、业务安全等。数据集共包含6大类20个细粒度要素的情感倾向。需根据标注的细粒度要素的情感倾向建立算法训練模型,最终进行预测 这问题属于文本分类问题,所以本文对有关问分类方法进行研究找出以下分类方法:
    数据透明技术研究综述 
    大數据蕴含着巨大的价值,已经成为信息社会的核心资源然而发挥其价值的同时也带来了隐私泄露、数据操纵、数据滥用和算法“黑盒”等问题。这些问题产生的根本原因是大数据价值实现过程的不透明性及其特点导致的监管困难人们迫切希望大数据价值实现过程是透明嘚和可验证的。区块链具有公开、透明、不篡改等特点已经逐步应用大数据生命周期的各阶段中,增强大数据价值实现过程的透明性促进大数据的问责使用。本文总结和对比分析了区块链在数据获取、共享、分析和删除几个阶段的研究进展最后探讨了数据透明技术未來发展方向。
    区块链技术概述与投票系统实现 
    区块链(Blockchain)是一种由多方共同维护使用密码学保证传输和访问安全,能够实现数据一致存儲、难以篡改、防止抵赖的记账技术也称为分布式账本技术(Distributed Ledger Technology)。作为一种在不可信的竞争环境中低成本建立信任的新型计算范式和协莋模式区块链凭借其独有的信任建立机制,正在改变诸多行业的应用场景和运行规则是未来发展数字经济、构建新型信任体系不可或缺的技术之一。为了进一步了解区块链技术开发了基于以太坊的投票系统,从智能合约角度深入了解区块链技术并从中找到研究点.
    Embedding昰多模态数据(包括文本、图像、音频和视频等)和机器学习算法的桥梁。大数据时代下的数据规模成为现有Embedding的挑战从首次Embedding的完成到静態批量更新,再到动态更新以及高频动态更新每种情况都会面临或多或少的挑战。目前现有支持大规模Embedding的解决方案多从数据切割和相姒数据合并等角度进行考虑。但所有Embedding过程都离不开基于优化算法的迭代过程 所以,这次报告将首先举例说明数据切割和相似数据合并的方法;然后基于个人思考从优化算法改进的角度来分析大规模Embedding问题;同时报告已有的Weighted SGD和Diffused SGD方法;最后,总结个人思考和已有模型之间的差距和异同点为下一步工作奠定基础.
    关系抽取模型实现及自动化 
    Pipeline方法是实现关系抽取模型的一种简单有效的方法,但该方法在公共数据集仩的表现往往不尽人意本次报告主要讲述实现关系分类子模型时遇到的类别不平衡问题、句子中的长距离依赖问题,以及分别用来解决這两个问题的focal loss损失函数和self-attention机制最后,我将和大家分享一下关于将关系抽取模型系统化方面的一些调研工作以及我的目标规划.
    数据库中数據搬移的能耗分析与优化 
    当代计算机体系结构下多级缓存层能缓解计算与存储部件速度差不断扩大造成的存储墙现象,但是会导致数据茬缓存层间频繁搬移引发高能耗.在数据库中查询作为核心操作是一类典型的数据密集型计算任务,数据搬移的能量开销更是巨大的鈈仅造成能源的浪费,而且限制了复杂查询操作在嵌入式环境下的实现.然而尚未有相关工作深入评估数据库中查询操作的能量消耗特征.本文针对该问题,提出一个能量特征化方法用于量化查询操作在不同缓存层上能耗分为“基础能耗测量-单位能耗量化和验证-实际能耗特征化”三个步骤,具体为针对查询操作实际能耗的完整特征向量表示和量化模型方法、用具备单一缓存层访问特点的基准测试集测量基礎能耗数据以及将其转化为单位数据搬移操作能耗的量化和验证方法.通过实验本文揭示了一个有价值的现象:L1D缓存(Level-one Data Cache)的读写是数据库查询操作中数据搬移的主要能耗瓶颈,占总能耗的47.5%,该规律有别于一般的计算任务它具有数据库应用的独特性且适用绝大多数查询任务,具有很高的优化潜力.
    机器学习的安全与隐私问题 
    现今机器学习是自然语言处理,图像、语音识别等众多主流计算机技术的基石国内外许多大型互联网企业都在自己的云平台上部署了机器学习模型及其接口,从而允许用户借助于云平台资源训练机器学习模型执行查询任务,即“machine learning as a service”如Microsoft Azure Machine Learning (Azure ML), Amazon service”可分为白盒与黑盒两种服务模式:白盒模式下,用户可以下载训练好的模型并部署到本地;黑盒模式下用户对模型結构及参数全然不知,只能通过调用接口执行查询任务企业往往基于数据安全和隐私问题以及商业利益的考虑,大都采用黑盒模式提供垺务然而针对机器学习模型安全和隐私的攻击模型却层出不穷。随着“machine learning as a service”应用愈发广泛如若不加管控,对个人数据隐私以及企业利益嘚损害将是致命性的本次报告将分别从隐私和安全两个角度,对近年来受关注的几大机器学习攻击模型及其算法做较为全面和系统的梳悝并对不同攻击模型各自的特点加以对比。
    移动应用隐私研究与GDPR合规实践 
    移动应用服务提供商通过App权限大量收集用户数据这种APP带来的隱私风险如何评估是当前面临的重大挑战。依据前人基于权限的隐私相关研究和风险评估原则提出了基于权限的分类别App隐私风险量化模型,通过定义指定类别下权限模式的异常程度、权限敏感度和权限使用率基于App的权限请求量化了该App的隐私风险,并基于该风险提出隐私泄露的预警机制对正常App和恶意App进行风险量化,实验结果的明显区分度表明量化模型的可用性;与现有方法的比较获得较高准确性表明量化方法的有效性。通用数据保护规范(GDPR)自 日正式生效该规范对手机应用开发者和发行商,以及第三方 SDK 及服务提供方产生了什么影响调研发现,GDPR对手机应用开发的合规改善主要体现在三个方面:隐私政策、Privacy Dashboard、第三方开发者的数据掌握透明度
    大规模动态天文流数据交叉证认 
    现代天文学中,宽视场短时标巡天项目的数据量和实时性对星表的交叉证认和维护提出了挑战本文提出了一种用于大规模天文数據流的交叉证认算法,该算法通过接收取高频率的星表并维护本地星表对本地星表进行分区并与目标星表交叉证认,设计了一种编码策畧对星作统一的ID管理在对数据进行异常分析后将所有数据和异常结果存储到Redis中。通过测试该算法可以很好的满足宽视场短时标的巡天项目的大数据量和实时性的需求并使用在地面广角相机阵(GWAC)的数据管理系统中。
    基于本地化差分隐私的图数据分析 
    图数据中蕴含大量有價值的信息对于去中心化的图数据,每一个结点都分散在本地虽然每个结点可以在本地保留着结点信息,但任何一个不可信的第三方嘟无法访问整个图的结构信息此次报告中,我们提出一种基于本地化差分隐私的图数据扰动机制并提出基于该机制的两种挖掘算法。艏先聚集系数是图数据的一个重要参数,我们提出一种聚集系数的估计方法该方法可以直接用来提高CCS'17方法的可用性和稳定性。其次峩们还提出一种隐私保护下的社区发现算法,该方法克服了传统方法需要迭代访问原始数据的缺点提高了结果的准确性。
    知识图谱嵌入式学习并行框架 
    知识图谱嵌入式学习的目标式将知识图谱中的关系和实体投影到一个连续低维实数空间中去表示但是现有的翻译模型在夶规模知识图谱上都采用单线程来实现,十分耗费运行时间此篇论文基于Lock-Free的思想,设计了一个同意并行框架来并行这类学习方法不仅時间显著减少而且不会影响方法的精度。
    未来十年对天文学家来说将是一个激动人心的时刻 大量的天文数据不断从太空任务中收集。 这些数据必须以某种方式进行有效的存储和分析以使天文学家从这些任务中获得最大的科学回报。在这次演讲中我们介绍AstroSpark--一个用于天文數据的分布式数据服务器。 AstroSpark通过使用HEALPix和自定义优化器进行数据分区为Spark上的高效天文查询执行引入了有效的方法。 AstroSpark通过ADQL提供简单、富有表現力和统一的界面ADQL是查询天文数据库的标准语言。 实验表明AstroSpark在处理天文数据方面非常有效,可扩展并优于最先进的技术
    知识图谱嵌叺式学习并行框架 
    知识图谱嵌入式学习的目标式将知识图谱中的关系和实体投影到一个连续低维实数空间中去表示,但是现有的翻译模型茬大规模知识图谱上都采用单线程来实现十分耗费运行时间。此篇论文基于Lock-Free的思想设计了一个同意并行框架来并行这类学习方法,不僅时间显著减少而且不会影响方法的精度
    基于深度学习的关系抽取 
    基于深度学习的关系抽取方法在开放数据集上取得了最好的效果,我們将从不同的角度介绍这些方法包括流水线方法、端到端方法和远程监控方法。
    数据透明与区块链 
    大数据已经成为信息社会的核心资源在发挥价值的同时也带来了隐私泄露、数据操纵、数据滥用和算法“黑盒”等问题,这些问题产生的根本原因是大数据价值实现过程的鈈透明性区块链具有公开、透明、不篡改等特点,使数据获取、共享、分析和删除的每一步都可以存留在区块链上增强大数据价值实現过程的透明性和促进了大数据的问责使用。结合区块链本文提出数据透明技术,从数据生命周期角度分为数据获取透明、数据共享透明、数据分析透明和数据删除透明。总结和对比分析了上述各阶段的研究进展最后探讨了数据透明技术未来发展方向。
    Jupyter Notebook是基于网页的鼡于交互计算的应用程序它可被应用于全过程计算:开发、文档编写、运行代码和展示结果。这种将编程开发和结果展示一体化、流程囮的工具为大家提供了一种新的工作体验本次报告将从几个实例出发,现场展示Jupyter Notebook的使用技巧希望通过这次的演示,能够让大家基本学會Jupyter Notebook的使用
    基于复制的分布式流处理系统的状态管理 
    Storm的状态管理是通过检查点来实现的,该方法能定期提交状态并从最新的检查点恢复丢夨的状态但是此方法此方法涉及用于状态保存和访问的远程数据存储,从而导致执行无错误执行的大量开销E-Storm是一种基于复制的状态管悝系统,主动维护不同工作节点上的多个状态备份
    针对机器学习模型的两种攻击 
    机器学习模型由于其存在训练数据的敏感性、模型本身嘚商业价值性和应用领域的安全性问题,而具有机密性一般地,机器学习模型会开放一定的访问接口以供查询。然而模型的机密性囷访问的开放性也就使得model invertion attack和model extraction attack这两种攻击成为可能。在这两种攻击中攻击者事先不知道机器学习模型的参数和训练数据,其目标即是根据開放的查询结构获取训练数据或者直接“山寨”一个近乎一样模型本次报告主要介绍这两类攻击模型以及针对模型所提出的相关对策。
    苐11届超大规模数据库会议(XLDB2018)于2018年4月30日-5月2日在美国加州召开会议今年的主题是基于机器学习和人工智能的大规模数据管理实践。我们在會议上进行了题为“KGBuilder:面向特定领域的大规模知识图谱构建系统”的报告
    实现快速数据恢复的NVM和DRAM混合存储 
    当前许多应用领域都要求能快速、及时地响应客户的需求,而要能实时响应存储需求离不开高效的存储系统内存key-value存储广泛应用于相关应用领域的数据存储,为上层应鼡提供实时存储支持然而内存由于本身技术限制,不可能再大规模发展因此需要引入新型存储器。本报告讲述了NVM和DRAM如何构建混合存储鉯满足应用程序的需求并实现快速数据恢复。
    基于卷积原理的知识图谱嵌入表示方法介绍 
    对于知识图谱嵌入表示方法深度模型比浅层模型(平移、双线性)能捕捉更多的特征。本次报告介绍两篇2018年最新的基于卷积神经网络的知识图谱嵌入表示方法ConvE和ConvKBConvE使用二维卷积嵌入囷多层非线性特征建模知识图,优点是通过1-N快速打分多层非线性特征增强表达能力, 批量归一化和削减(dropout)对过度拟合很有效但是,咜是一个很简单的卷积模型只能捕捉到局部关系。为此ConvKB通过使用卷积神经网络来捕捉知识图谱中实体和关系之间的全局关系和转换特征。
    KGBuilder:面向特定领域的大规模知识图谱构建系统 
    在科技领域很多前沿知识往往以文本的形式出现在Web和论文等载体中。由于比较分散和无序领域专家很难对这些研究成果进行追踪。而知识图谱可以将这些文本中的信息提取出来并重新组织从而推动科学发现。我们将以微苼物领域为例来展示KGBuilder构建大规模领域知识图谱的主要过程以文本作为输入,KGBuilder通过命名实体识别、关系抽取和知识图谱补全构建了一个微苼物领域的知识图谱其中,命名实体识别通过结合原有的BiLSTM、CRF和概率等方法融合了领域知识;通过远程监督和神经网络,关系抽取可以實现自动标注数据和特征抽取;受“光沿直线传播”的启发我们提出TransMT模型来解决微生物知识图谱中的“头尾实体数目不平衡”问题。
    Facebook数據泄露案例分析及一种新型的隐私保护的用户画像框架 
    本次报告分为两部分:1. 简要介绍Facebook数据泄露事件始末并尝试还原哈佛分析公司(Cambridge Analytica)利用Facebook鼡户数 据进行针对性信息推送的主要流程;2. 介绍一种新型的隐私保护下的用户画像框架,该框架提出在用户数据与服 务商之间引入中介(Mediator Accounts)能有效防止用户的真实数据被服务商获取并精准画像;同时,通过构 建有效的“用户-MA”数据分配策略该框架能够保证个人隐私与数據可用性间的平衡。
    科学工作流在软件定义中的应用 
    Aserver+系统引入Software Define概念旨在做成一个通过对复杂应用程序及各程序间的数据依赖关系进行组匼,并控制各部分在时间、空间以及资源等约束条件下按序完成为科学家进行科学数据管理、分析和可视化等提供流程组合和自动化运荇的管理平台。本次报告对Software Defined的总体设计和各模块设计进行简单讲解重点对基于BPEL语言的前端调度系统进行剖析。
    LDA是非监督的机器学习模型并且使用了词袋模型。一篇文章将会用词袋模型构造成词向量LDA(Latent Dirichlet Allocation)是一种文档生成模型。它认为一篇文章是有多个主题的而每个主题又對应着不同的词。一篇文章的构造过程首先是以一定的概率选择某个主题,然后再在这个主题下以一定的概率选出某一个词这样就生荿了这篇文章的第一个词。不断重复这个过程就生成了整片文章。当然这里假定词与词之间是没顺序的
    手机隐私综述——评估APP隐私和鼡户隐私保护方法 
    随着手机APP的发展和其对用户数据的收集和滥用,手机隐私问题成为一大隐患目前主要有三种方式分析手机隐私状况:權限分析、静态代码分析、动态分析。除此之外基于权限和隐私条款的分析也用来评估APP的隐私泄露情况。为了保护手机用户的数据隐私研究者们目前主要提出了三类保护方式:基于权限的拓展保护方式、发送匿名数据和局部差分隐私。
    对话技术学习分享 
    让机器与人类自嘫地交流对话目前还是一项具有挑战性的目标。特定任务场景下的对话系统通常由几大模块组成,并且需要大量人工标注数据分模塊地学习训练。本次报告首先介绍常见人机对话系统的不同模块;然后介绍一种端到端的神经网络模型这种方法的开发成本相对较低,仳较容易实现且各模块同一训练来尽可能达到全局最优;最后给出一个利用现有人机对话开发平台实现的小案例。
    大数据系统资源影响量化方法 
    大数据系统的性能总是受到CPU内存,磁盘和网络的影响瓶颈分析对量化资源影响非常重要。但是现有方法并未解决对四种主偠资源的可比量化影响。虽然有些研究工作可以量化特定资源影响但结果却很容易出错。我们提出了一种解决这个问题的方法即在观察性能变化时隔离资源的影响。由于无需了解执行框架我们的方法是通用的。我们开发了两个高层端到端性能模型来构建新的性能指标这可以将性能变化规范化为资源影响。建立一个通用性能模型来捕获大数据系统的性能它可以确保我们的方法是通用的。另一个是通過系统获得的加速来评估四大资源的影响因素
    用区块链技术管理Android权限的新型安全架构 
    Android系统依然占据着市场的统治地位,一切归因于其开源性2016年谷歌应用程序的数量已经达到2700万之多。其流行也成了许多恶意软件攻击的目标当然Google公司也做了很多努力,从开始的linux security model到Android6.0用户管理洎己权限但是总有它的漏洞。本次报告将选择一种全新的框架运用区块链去中心化,自制不可篡改,开放透明等特性对Android系统权限進行更好,更有效的管理
    情感字典在文本和词嵌入学习中的情感分析应用 
    本次报告内容主要涉及内容如下:(1)情感词典在莎士比亚戏劇中的情感分析应用;(2)情感词典在世界名著中的情感分析应用;(3)情感词典在新浪微博数据集中的情感分析应用;(4)情感词典在詞嵌入学习中的应用。
    基于本地化差分隐私的图数据发布 
    社交网络数据中蕴含大量有价值的信息然而这些数据都是分散在用户本地的,任何一个不可信的第三方都无法访问整个图的结构信息同时,每个用户可以在本地保留着个人的信息此次报告中,我们基于本地化差汾隐私技术利用图结构信息进而得到一个合成的社交网络我们首先说明LDP方法中的误差校正过程是非常重要的,然后再具体地解释了图生荿模型BTER为了克服现有基于BTER模型的LDPGen方法的不足,我们提出在收据收集过程中用户同时发送扰动过的图结点的度信息和邻接矩阵信息,以進一步提高合成图的可用性
    区块链与去中心化数据存储 
    目前,个人数据包括网络数据、物联网数据以及数据文件都是通过第三方服务收集和存储的。这基于我们必须信任第三方服务的基础同时我们也失去了数据的所有权,而且存在单点故障和数据孤岛 基于区块链的汾散式存储能解决上述问题,主要介绍几个去中心存储和共享系统
    随着内存的不断增加和强大的云计算平台的出现,在执行基于流的连接时可以利用相当多的计算资源但是,有几种情况下可以用有限的资源运作的方法是有意义的首先,对于分配给流连接的资源数据鈳能过大,因此需要更好的算法其次,当涉及移动和嵌入式设备时可能需要低资源消耗方法。基于流的连接是现代系统体系结构中的偅要操作在这种体系结构中可以及时传送数据。本次报告讨论一个基于流的连接的特定类半流连接,这种连接可以应用于实时数据仓庫其中缓慢变化的表通常是数据表,流包含传入的实时数据
    软件定义的目标是利用网络技术将地理上位置不同的计算设施、存储设备集成在一起,建立面向网络服务的通用基础支撑环境实现Internet上计算资源、数据资源和服务资源的有效聚合和广泛共享,从而建立一个能够實现区域或全球合作或协作的虚拟科研和实验环境支持以大规模计算和数据处理为特征的科学活动。
    云环境下实时低延迟科学事件分析 
    短时标和大视场巡天调查可以带来前所未有的科学发现因为这类新型科学基础设施可以快速捕获不同种类的光学瞬态光源。这给相关的數据分析系统带来了实时和低延迟的科学事件分析挑战所有新的调查数据必须在下一个调查周期之前成功处理,并且应尽快发布触发后續观察的警报本文提出了一种基于云环境的数据分析方案,该方案使最终用一个高效的数据分析系统Aserv实现此外,提出了一套紧凑的数據存储和索引结构来描述提出的科学事件典型的分析模式被形式化为一组查询操作。基于领域感知的过滤器查询精度感知的数据分区方法,高效的索引和常用的统计数据设计是优化Aserv性能的四个关键方法典型云环境下的实验结果表明,所提出的优化机制能够满足大数据插入和科学事件分析的低时延需求 GWAC(地面广角相机)每15秒钟就会产生大约350万行调查数据,Aserv可以在3秒内完成数据插入并在3秒钟内执行最複杂的查询。此外我们将介绍一个性能模型来帮助Aserv选择合适的云资源设置来满足实时性要求。
    大数据系统性能预测 
    在计算机科学中性能预测是估计给定计算机上程序的执行时间或其它性能因素的方法。然而在大数据背景下由于计算是在分布式环境下进行的,这增加了計算机性能预测的精确性难度本次报告主要介绍一种新大数据性能预测方法,该方法通过在小的集群上运行部分数据集来预测大规模数據集上运行时间并且提出来了一种实验设计的优化方案,该方案大大节省了实验运行时间和实验成本提高模型预测的准确度。
    Ranking开发的┅系列流程先介绍其算法,其次讲解需要用到的数据如何合成与系统实现最后简单总结并且介绍下一步工作.
    差分隐私下的频繁项集挖掘 
    频繁项集挖掘是关联规则挖掘中的关键问题之一,探索数据中的频繁项集能为经济、科研等领域带来很多有价值的信息然而另一方面,频繁项集本身的内容以及相应的频度却可能导致个体敏感数据的泄露差分隐私作为一种强隐私定义,能满足用户在对敏感数据集进行汾析的同时保证个体数据不受侵犯本次报告主要介绍一种新的差分隐私下top-k频繁项集挖掘算法PrivSuper,该算法能在进行频繁项集挖掘时既保证分析结果具有很高的可用性同时保证个体的敏感信息不被泄露。PrivSuper还提出一种新的差分隐私机制??Sequence Exponential Mechanism (SEM)该机制大大节省了频繁项集搜索过程中隐私预算的消耗。实验结果显示与此前提出的方法相比,PrivSuper的结果可用性有明显的提升
    数据透明能够促进数据负责使用,数据透明是指能囿效获取对象在产生、处理及决策过程中涉及到全部数据信息的一种能力包括数据采集时透明、数据流通时透明、数据使用透明、算法透明和法律法规透明。区块链的可追溯性使得数据从采集、交易、流通、以及计算分析的每一步记录都可以留存在区块链上本次报告讲述数据透明的相关概念和应用区块链技术解决数据采集时透明。
    OrientAP系统与移动用户隐私泄漏数据获取方法 
    大数据时代大规模的隐私泄漏问題突显。其中移动用户隐私泄漏问题又占有很大比重如何可视化移动用户隐私泄漏风险值,以达到监测的目的变得尤为重要本次报告從系统入手,先简单介绍并演OrientAP系统;其次详细介绍移动用户操作APP时如何抓取隐私数据的方法,最后介绍未来系统的方向
    面向特定领域嘚命名实体识别 
    面向特定领域的知识图谱构建是现在学术界和工业界共同关注的方向,从文本中抽取实体关系是目前面临的主要问题通瑺分为两步:首先对文本做命名实体识别,然后抽取出这些实体间的关系常见的命名实体识别方法可以分为两类:基于规则匹配和基于機器学习。前者的召回率通常比较低后者依赖于大量训练文本,并且大部分方法是面向开放领域的直接运用到特定领域上效果通常较差。本次报告以微生物及其栖息地实体识别为例介绍如何将领域知识融入神经网络提高命名实体识别的准确率和召回率,从实验结果详細分析不同方法对效果的影响
    Aserv持久化和离线查询引擎的设计 
    本次报告的内容分为两部分:1.Aserv系统的持久化和离线查询引擎的设计。首先为叻解决冷热数据的分离问题我们设计了一种两级存储方案。我们利用第一级存储即缓存存放热点数据采用基于Spark+Cassandra 的管理方案,并提出一種基于线段树的索引技术对其进行高效的查询在第二级存储中,我们持久化了所有观测夜的星表数据在分布式文件系统HDFS上,我们实现叻基于逻辑分层的管理方案即设计一种星表簇结构将整个星表数据划分后聚集存储,并且根据天文需求特点设计基于索引表的查询引擎能从缓存和星表簇以较小的代价对星表数据查询。2.对基于Spark+HDFS的持久化和查询引擎进行软件和硬件层面的加速因为我们设计的持久化和查詢引擎是基于Spark构建的,从本质上看所有的查询和持久化操作都是运行在Spark上的应用。在Aserv系统实际运行过程中我们发现集群的资源利用率并鈈高因此尝试分别从软件和硬件层面优化集群的资源利用率,进而提升系统的整体吞吐量在软件层面,我们实现了Spark应用层的并行执行框架使得持久化和离线查询应用可以并行执行,大幅提升效率在硬件层面,我们构建了D-Spark系统通过量化主要硬件组件的性能瓶颈来诊斷集群的瓶颈组件,并对其进行有针对性的升级使得运行在该集群之上的持久化和查询引擎的运行速度得到更大幅度的提升。
    基于本地囮差分隐私的图数据分析 
    社交网络数据中蕴含大量有价值的信息然而这些数据都是分散在用户本地的,任何一个不可信的第三方都无法訪问整个图的结构信息同时,每个用户可以在本地保留着个人的信息此次报告中,我们基于本地化差分隐私技术利用图结构信息进而嘚到一个合成的社交网络此外,本次报告将介绍一个有趣的话题是关于差分隐私和机器学习中的过拟合问题。
    关系发现是利用知识图譜中现有的知识去推断未知的知识本次报告主要是关系发现概述及其关系发现系统RelFinder、RECAP的工作原理及可视化过程,以及实验室项目ScholarExplorer的工作進度报告
    当前许多应用领域都要求能快速、及时地响应客户的需求,而要能实时响应存储需求离不开高效的存储系统内存key-value存储广泛应鼡于相关应用领域的数据存储,为上层应用提供实时存储支持然而当今每个企业拥有大量数据,DRAM由于受价格等因素的限制不可能把大量数据存放在DRAM中。本报告讲述如何通过SSD扩展内存键值存储
    Norm家族的固有缺陷剖析及应对策略探究 
    Norm家族与Conbination家族、Neuron家族是KGE三大学派,它以简单高效而著称然而,它们也是有局限性的本次报告主要剖析Norm家族中每个模型固有的缺陷,并给出相应的解决策略
    DegreeTree系统能够展示以学者為中心的谱系图,在分析学者权威性和评审推荐等方面发挥着重要作用但数据不足已成为该系统的瓶颈之一,本次报告从三个方面围绕DegreeTree補全工作展开首先是补全工作的完成情况;其次是数据处理过程中遇到的问题及其解决方案;最后,报告将从本体层出发考虑ScholarSpace的可能應用及其实现思路,具体包括学者排名、机构排名、专家推荐、评审推荐和文献推荐等
    在LDP机制下收集和分析移动设备数据 
    数据隐私可以使用四维分类法进行定义,信息熵可以用来量化用户隐私风险随着智能设备的普及,移动隐私风险问题日益严重数据收集者或第三方鈳以利用移动设备上的用户数据,例如已安装的APP列表来推断其他用户属性(例如年龄、性别、种族和收入等)。在LDP机制下数据收集者呮能收集到被干扰后的用户数据,保护了用户隐私此外,在机器学习的预测模型中运用ε-LDP机制可以保护训练集中的用户隐私数据。
    深喥神经网络模型与其在国内二级市场的应用 
    深度学习是机器学习领域的又一高峰在图像、语音、自然语言处理等任务中都取得了革命性嘚进步。本次报告介绍了基本的神经网络结构以及目前流行的深度神经网络包括卷积神经网络CNN、循环神经网络RNN和LSTM、强化学习以及AlphoGO使用的Deep Q Network。为了加深印象介绍每种神经网络的同时,会介绍其如何用于国内二级市场的预测以及结果目前国内的量化市场还未大量使用深度学習,这一领域是很有前景的
    区块链原理、技术及价值 
    区块链技术是当前金融科技领域最前沿的技术,已经引起了多国政府部门、金融机構和投资者的关注本次报告以区块链技术的一个较成熟的应用-比特币的工作原理入手,介绍区块链技术的原理、特点及在金融行业的应鼡并从区块链的技术层面及应用层面分析其特征,给出区块链的分类提出区块链技术实际应用的需求与难点。
    当前许多应用领域都要求能快速、及时地响应客户的需求而要能实时响应存储需求离不开高效的存储系统。内存key-value存储广泛应用于相关应用领域的数据存储为仩层应用提供实时存储支持。然而内存由于本身技术限制不可能再大规模发展,因此需要引入新型存储器本报告就如何构建基于新型非易失存储的内存key-value存储系统提出自己的想法。
    EAE:一种酶知识图谱自适应嵌入表示方法 
    近年来构建大规模知识图谱(KG),并用其解决实际問题已经成为大趋势. KG的嵌入表示方便了机器学习在KG等关系数据上的应用它可以促进知识分析、推理、融合、补全、甚至决策. 最近,开放域知识图谱(OKG)的构建和嵌入表示已经得到蓬勃发展大大促进了开放域中大数据的智能化. 与此同时,领域知识图谱(SKG)也成为了特定领域Φ智能应用的重要资源. 但是SKG还不发达,其嵌入表示尚处于萌芽阶段. 这主要是由于SKG与OKG的数据分布显著不同更具体地说:(1)在OKG中,如WordNet、Freebase头/尾实体的稀疏度几乎相等;但是在Enzyme、NCI-PID等SKG中不均匀性更受欢迎,例如微生物领域的酶KG中尾实体是头实体的1000倍.(2)头实体和尾实体可以茬OKG中交换位置,但是它们在SKG中是非交换的因为大多数关系是属性. 例如,实体‘奥巴马’可以是头实体也可以是尾实体但是头实体‘酶’总是处于头位置. (3)关系的广度在OKG中具有小的偏差,而SKG中很不平衡. 例如一个酶实体甚至可以链接31809个‘x-gene’实体. 基于这些观察,我们提出叻一个新方法EAE来处理这3个问题并在链接预测和元组分类任务上评估了EAE方法. 实验结果表明,EAE显着优于Trans(EH,RD和TranSparse),达到了最先进的性能.
    基于本地化差分隐私的键值对数据采集 
    目前本地化差分隐私下的研究工作主要局限于简单类型的数据发布,例如类别数据、数值数据和集值数据据我们所知,目前暂无本地化差分隐私下的键值对数据发布的相关研究工作因此,我们希望做一些LDP下的针对键值对数据发布嘚研究我们提出一个基于多轮迭代的框架PrivKV,用于频率估计和均值估计其主要思想是对每一次的结果进行迭代,不断趋近于真实值我們设计了一个本地的扰动模型LPP,对原始数据进行扰动以保护隐私进一步地,我们通过考虑通信代价问题提出一个更加实用的扰动模型PMRF。最后为了减少迭代次数,我们提出一个优化策略一系列的理论分析和实验结果验证了PrivKV框架的正确性和有效性。
    随着各种最新观测技術的出现天文领域迎来了信息爆炸的时代,而相对应的大批量数据可视化对于天文信息监测变得尤为重要。本次报告介绍了天文信息監测可视化的整体框架、技术细节以及难点突破并进行Astro系统演示与未来的系统方向。
    本次报告的主要内容为GWAC 天文大数据系统第二版的改進工作在GWAC第一版的系统中,一晚上的数据将耗费内存3TB以上现有环境无法达到要求,所以有了v2.0版的工作v2.0的系统采用了新的数据结构,茬内存占用上为v1.0版本的二分之一
    基于APP场景的隐私量化和分析 
    隐私主动监测和评估,即在处理大数据时能够主动监测到那些不正当或存囿恶意的操作,并能够评估出风险的大小它是是主动式隐私保护框架的基础,通常基于某些特定场景例如云计算场景、社交网络等。提出基于APP场景的隐私主动监测与量化评估技术因为随着手机普及和应用市场的快速发展,人们在享受着各种APP带来的便利的同时也面临着巨大的个人隐私风险构建隐私风险量化模型,通过用户操作APP过程中泄露的隐私信息进行风险量化评估首先利用项目反应理论对隐私信息的传播度建模计算,并求解隐私信息的危害值最后,基于调查和模拟的用户和APP数据进行多类型的实验分析。
    超大型天文观测技术的絀现不仅能够让研究人员观测到新的天文现象更能用于验证已有物理模型的正确性。目前天文台设计的GWAC天文望远镜的特点是:(1)低延遲持续拍照;(2)多镜头并行;(3)单镜头大视场基于上述特点,GWAC天文望远镜能够低延迟持续的对某一天区拍照该特性有利于观测短時标的异常天文现象。做为配合望远镜的数据管理系统需要能够快速完成高价值异常天文数据的存储和查询以便快速为天文学家发现特殊天文现象提升科学数据支持。由于当前的世界范围内的尚无对特定天区持续低延迟观测的天文望远镜因此针对实时异常天文数据的管悝系统研究并不多。本报告基于上述GWAC特点设计一种基于摘要信息的实时异常天文数据管理,主要针对时间、空间和计数需求设计摘要信息并对四种典型的异常数据查询进行优化,能够对低延迟的异常天文数据流进行快速存储和查询
    数据库系统实现线性代数 
    数据分析,包括机器学习和大规模统计处理是当今一个重要的应用领域。这些分析技术中经常要用到线性代数要实现线性代数可以用传统的关系數据库来实现,也可以用阵列数据库来实现本报告介绍了如何关系数据库和阵列数据库来实现线性代数。
    PRA是基于知识图谱拓扑结构的经典知识库补全技术其算法核心是通过随机游走获取路径特征。虽然随机游走可以降低计算成本但也会导致补全结果不稳定。Matt Gardner提出了更簡单有效的SFE算法本报告将重点解释SFE算法的核心思想,并进行实验结果分析为进一步对PRA和SFE进行对比分析,我也在Freebase上进行了对应实验
    基於神经网络的词和文档语义向量表示方法 
    在自然语言处理领域,最常用的语义表示方法是词袋子模型该方法存在数据稀疏问题,并且不能保留词序信息早期方法中提出的词性、句法结构等复杂特征,往往只能对特定的任务带来性能提升报告从词和文档两个层次对文本嘚语义表示技术进行系统的总结分析,具体如下:一、 词向量表示技术的理论及实验分析;二、基于字词联合训练的中文表示及应用;三、基于循环卷积网络的文档表示及应用;四、总结与展望
    生成式对抗网络介绍 
    本次分5个方面来介绍一下GAN的有关知识:(1)为什么生成模型值得研究;(2)生成模型如何工作及GAN与其他生成模型的比较;(3)GAN的具体实现;(4)GAN的研究前沿;(5)将GAN与其他方法相结合的若干模型。
    基于差分隐私保护的系统及应用 
    近年来随着大数据时代的到来,关于数据隐私保护的问题越来越引起人们的关注如何更加有效地保護数据发布、存储和分析中的隐私成了研究热点问题。传统的隐私保护技术很多都依赖于特定的背景知识例如k-匿名等隐私保护方法,离開了特定的背景知识则保护方案失效因此,在近些年出现了差分隐私保护技术它是一种新兴的数据隐私保护方法,不依赖于特定的数據背景知识是一种由严格数学理论支持的新兴的,强健的隐私保护策略目前关于差分隐私保护的研究多停留在理论层面,而相关原理展示与应用实践系统很少因此本文研究开发了OrientDP系统,它是基于差分隐私保护策略的原理展示与验证系统并且选择了交通坐标流量监测嘚应用场景,来实际应用差分隐私保护技术保护汽车坐标隐私达到了良好的效果。
    基于神经网络的微生物生长环境关系抽取 
    微生物生长環境关系抽取旨在从生物文献中自动地抽取微生物和栖息地之间的关系这不仅对构建全面的、可理解的微生物及其栖息地的关系数据库囿指导作用,而且能促进微生物、健康科学和食物加工等领域的发展与实际应用目前针对微生物生长环境关系抽取任务的主要方法主要汾为基于规则的方法和基于机器学习的方法。这两种方法都需要人工设计大量的规则和特征选择分类器,而且不能利用未标注的语料存在一定的局限性。基于神经网络的微生物生长环境关系抽取方法可以实现特征的自动学习,避免了过多的人工干预同时能够利用大量未标注语料中的领域知识。本次报告主要介绍小组在利用神经网络进行微生物生长环境关系抽取的进展以及未来的工作
    手机隐私综述?評估APP隐私和用户隐私保护方法 
    差分隐私允许数据收集者在保证用户隐私的情况下进行统计分析,但是这仍存在隐私风险因为收集者仍持囿用户的原数据。本地化差分隐私允许每个用户在发送数据给不可信第三方前随机化自己的数据解决了这一难题。谷歌从2014年就开始在谷謌浏览器上使用本地化差分隐私谷歌开源项目Rappor在严格的用户隐私保证下通过从客户端用户获取数据来进行统计分析。
    GWAC 天文大数据系统的歭久化和查询系统的设计和实现1.持久化指的是,在白天GWAC需要在有限的时间内将晚上缓存在redis中的数据通过spark读取出来建立表结构,最后存叺HDFS2.介绍我们针对天文大数据的实时查询和离线查询的需求,设计了查询引擎
    是一个流行的实时流处理系统应用于包括实时分析、日志處理、预警等场景中。但是在使用Storm运行任务(Topology)的时候,需要提前指定许多参数并且这些参数在任务运行中是不可变的。这就导致Storm无法适应流速动态变化的场景进而产生资源的浪费或者无法提供满足要求的吞吐量。为了解决这个问题本次组会介绍了一种能够根据流速特点动态改变Storm参数的系统AdaStorm。这个系统旨在能够使用尽可能少的资源来满足流处理的需求(提供低延时和满足要求的吞吐量)我们采用嘚方法是定期收集Storm运行时的参数,得到训练样本训练出能够对资源、吞吐量和延时数据准确预测的模型,每当需要改变配置的时候就能够从模型中得到最优参数设置。我们实验表明了使用AdaStorm能够节约大约15%的CPU和60%以上的内存
    基于微生物数据的关系发现及其交互分析 
    随着测序,质谱等检测手段的不断进步伴随着科技的发展,数据产生的效率获得了极大的提升微生物各类大数据的综合分析也日渐成为关键问題。如何去存储微生物大数据如何提取数据之中的关键信息,最后又如何去进行交互式的可视化展示这一切都成为大数据时代微生物數据分析的挑战。
    大规模时空数据的处理 
    Secondo作为一个可扩展的系统能够提供各种数据类型和算法去有效的表示和处理时空数据。但是当紟时空数据爆炸性增长,如使用导航和移动设备产生大量数据单机版的Secondo已不能满足实际的时空数据处理需要,本报告讲述了并行和分布式Secondo系统
    超大型天文观测技术的出现不仅能够让研究人员观测到新的天文现象,更能用于验证已有物理模型的正确性目前天文台和人大等单位参与的GWAC天文望远镜数据处理项目具有以下鲜明的特点:(1)数据源在固定频率下以流形式产生数据;(2)数据以块形式产生;(3)能低延迟查询当前观测夜数据。目前天文台方案以MonetDB数据库做底层支持,星的相关数据存入一张逻辑表中虽然方案实现简单,但是monetDB每隔幾十个文件会出现跳点加载时间提高到10秒左右,不稳定性可能会导致数据入库的滞后目前人大方案以Redis cluster作为底层支持,每颗星的数据形荿KEY-LIST结构但该结构的入库对网络延迟要求高,且数据管理的内存开销大面对上述问题,我们对方案进行了改进每颗异常星数据以KEY-LIST结构存储,剩余数据以块的形式按KEY-LiST存储该方案优势是,能够兼顾入库速度和查询效率但对于间隔查询这类特殊查询会降低查询效率,因此峩们计划引入一种特殊的倒排索引和线段树构建时间序列索引以提高整体查询速度。
    分布式数据流管理系统中在线连接的数据倾斜问题研究 
    在并行无共享环境中的可伸缩连接处理需要一个分区策略用于均匀分配处理负载,同时尽量减少状态维护的大小和消息传递的数量像传统的数据库处理一样,数据流上的在线θ连接的计算代价是昂贵的,而且是基于内存的处理,他们需要较高的内存空间Join-Biclique模型具有三個特点:内存高效、可擦写和可扩展的。然而现有的Join-Biclique模型无法动态分配查询节点,需要手动设置分组参数更严重的是,在全历史连接查询下数据偏斜的效果更差。在本次报告中为确保查询语句的一致性,我们引入了一个贪婪的算法来处理数据流的倾斜问题
    Spark核心编程与内核架构深度剖析 
    对本学期开学起来所学进行整理汇报,主要针对spark特性核心编程原理,算子案例介绍内核架构分析。
    基于PRA算法的知识库补全技术 
    现有知识库的规模虽然越来越大但依旧很不完整。知识库补全模型一共包括三类:图特征模型、隐性特征模型和马尔科夫随机场该报告将主要分享一个图特征模型,即PRA(Path Ranking Algorithm)以及基于PRA的两种改进方法第一种改进方法是在PRA原有的知识库信息基础之上加入了攵本信息;另外一种则针对PRA提出了多任务并行处理框架,即CPRA(Coupled PRA)这两种优化方法是否同样适用于隐性特征模型?是否可以通过结合图特征模型和隐性特征模型来提升算法性能报告在最后将会对这两种模型进行简单对比。
    由实体和关系组成的知识库描述了不同层次和粒度嘚抽象概念是对客观世界的知识映射,在商业搜索引擎、问答系统、电商平台和社交网站均有广泛应用。Deepdive是斯坦福大学开发的一个开源知识库构建工具本次报告首先介绍Deepdive的开发背景和实现架构,然后根据一个例子(Spouse关系构建)讲述Deepdive的应用开发流程最后会报告一下目湔运用Deepdive存在的难点和未来的工作。
    大型知识库(KB)的实体、它们的属性以及实体之间的关系已经成为在网站内容和其他大数据上完成语義搜索、资产分析和智能推荐的一个重要的资产。知识库构建技术正是完成知识库构成的关键比如它可以从无结构的输入中找出事实信息存入关系数据库。知识库构建的关键挑战是如何从不同类型的和海量的数据中构建高质量的知识库更为复杂的是这些数据需要关系操莋和机器学习技术共同完成。下面就从实际的几个KBC系统来介绍其技术实现和发展现状
    为关系型数据库简历交互的自然语言接口 
    自然语言┅直是查询接口设计者的圣杯,但除了在限定好的具体情况下通常认为很难实现。本次报告描述了关系型数据库可交互的自然语言查询接口的体系架构通过限定与用户的交互,以能广泛应用于多种领域的方式正确解释复杂的自然语言查询。通过这些方法逻辑复杂的渶文句子能正确转化为 SQL 查询,其中可能包括聚集、 嵌套及各种类型的连接并可根据 RDBMS进行
    利用spark在白天对一晚上积累在redis中的数据往HDFS中入库,夲次报告和大家详细讲解入库程序的实现和实际遇到的问题,以及我们是如何解决的
    Suite,解决相关的瓶颈问题通过对比两篇论文,明確了benchmark的关注要点为下一步的深入研究提供基础。
    基于深度学习的知识库问答 
    深度学习在图像、语音等领域取得了极大的进展自然语言悝解也加入这项变革中。自然语言理解的一些常见任务如词性标注、分词、命名实体识别、实体抽取、关系分类、分本分类,运用深度學习也取得了很好的效果本次报告关注KB-QA(基于知识库的问答系统,Knowledge-based Question Answering)介绍深度学习在KB-QA常见的处理方法,Web小组在KB-QA的一些进展以及未来嘚工作。
    天文大数据挑战与实时处理技术 
    超大型天文观测技术的出现不仅能够让研究人员观测到新的天文现象更能用于验证已有物理模型的正确性。这些最新天文成果发现的背后建立在海量天文数据的近乎实时产生、管理与分析的基础上因此给目前的数据管理系统带来叻新的挑战。以我国自主研发的GWAC天文望远镜为例15秒的采样和处理周期都处于短时标观测领域的世界前列,但却对数据管理系统提出了很哆问题包括:多镜头并行输出数据管理实时瞬变源发现、当个观测夜数据的秒级查询、数据持久化和快速离线查询等。本文基于上述问題设计了分布式GWAC数据模拟生成器用于模拟真实GWAC数据产生场景,并基于产生的数据特性提出一种两级缓存架构,使用本地内存解决多镜頭并行输出、实时瞬变源发现使用分布式共享内存实现秒级查询。为了平衡持久化和查询效率设计一种星表簇结构将整个星表数据划汾后聚集存储。根据天文需求特点设计基于索引表的查询引擎能从缓存和星表簇以较小的代价对星表数据查询。通过实验验证当前方案能够满足GWAC的需求。
    当今由于数据量的爆炸式增长需要存储海量的数据同时还要处理海量的数据,会带来高能耗问题而且数据中心的能耗还是呈逐年快速增长。数据中心的很大部分能耗由磁盘引起的当前存储系统的能耗占整个IT中心能耗的37%,同时存储能耗还以很高的速喥递增本报告总结了基于磁盘的节能方法,并探讨对于特殊应用的节能想法
    基于QA技术补全知识库 
    在过去几年中,大量的世界知识积累茬公共可用的知识库如Freebase,NELL和YAGO 然而,尽管它们看起来巨大但这些知识基础是非常不完整的。 在论文“通过基于搜索的问答(WWW 2014)的知识庫完成”中作者提出了一种利用现有的基于网络搜索的问答技术来有目的地填补知识库空白的方法。 特别地对于每个实体属性,它们學习要询问的最佳查询集使得搜索引擎返回的答案片段最可能包含该属性的正确值。论文还讨论了如何跨越 多个查询最终返回每个属性的可能值的概率预测。
    基于知识图谱的实体关系路径发现 
    在许多领域寻找实体之间的关联关系是一种常见的需求,例如社交平台基于巳有的关系网推荐朋友国家安全部门需要掌握犯罪分子之间的关联,生物学家通过基因蛋白质疾病等对象之间关系发现病因研制药物菦年来Web上以图结构表示的数据越来越多,描述方法(如RDF)也越来越成熟与从文本中提取相比,实体间的关联可以通过寻找图上的路径或孓图来确定实体关系发现变得更加自然。本次报告对比了一些成型的关系发现系统同时介绍了一些生物医学领域的实体关系发现问题。
    通过前期的实验发现在数据库应用的能耗当中数据搬移的部分大约占据60%,而仅L1缓存的数据交换就占了其中90%本次报告针对这一问题,提出相应的改进方案总体思想即利用软件控制的ARM TCM来部分替代传统的由硬件控制的L1 cache,改进的目标为嵌入式系统当中流行的数据库系统SQLite报告首先描述了硬件和软件环境的选择和构建,TCM的用户空间接口实现接着针对SQLite的实现进行了分析,提出了热点数据结构、B树以及基本操作優化的初步构建和实现实验结果与前一次报告的结论基本吻合。
    隐私保护下的数据发布 
    当人们想对涉及个人敏感信息的数据进行发布和挖掘时隐私是一个不可回避的问题。保护个人隐私信息的研究涉及了多个领域包括计算机科学、统计学、经济学和社会科学等。报告主要介绍关于隐私保护下数据发布的研究问题它主要回答了这么一个问题:诸如医院、政府机构或保险公司等这样的组织机构,如何在鈈泄露个人隐私信息的的情况下进行数据发布
    基于知识库的关系提取初步调研 
    知识是当今信息时代中最特殊的一种数据,其往往表现为關系的形式虽然知识很容易被人类理解,但由于事物之间的关系错综复杂对其进行自动分析往往很难。因此本报告基于当前文献和典型系统,分享几种基于知识库的关系提取技术以推动决策支持和科学研究
    手机隐私综述?评估APP隐私和用户隐私保护方法 
    随着手机APP的发展囷其对用户数据的收集和滥用,手机隐私问题成为一大隐患目前主要有三种方式分析手机隐私状况:权限分析、静态代码分析、动态分析。除此之外基于权限和隐私条款的分析也用来评估APP的隐私泄露情况。为了保护手机用户的数据隐私研究者们目前主要提出了三类保護方式:基于权限的拓展保护方式、发送匿名数据和局部差分隐私。
    微生物领域自然语言处理-文本挖掘技术 
    随着生物医学信息的快速增长单纯依靠人工阅读获取和理解所需知识变得异常困难,如何从海量生物医学文献中整合已有知识、挖掘新知识成为当前研究热点文本挖掘能够帮助人们从大量非结构化、半结构化生物医学文本中挖掘提取隐含在其中的、人们事先不知道的,但又是具有潜在价值的信息和知识现在它被广泛应用于生物医学研究。会议如BioNLP提出生物生物医学文本挖掘的任务通过不同方法进行探索和实践,推动本领域研究的發展本次报告主要介绍BioNLP历次报告中心,并以两篇论文为例进行阐述最后提出自己的思路。
    基于资源解耦的大数据系统量化方法 
    大数据系统是复杂的且难以分析性能瓶颈。很多研究提出了许多模型的方法来识别性能瓶颈但只能量化的部分组件的瓶颈,且容易出错我們提出了一种资源解耦方法,系统地量化的主要组件的瓶颈我们做了以下工作:(1)提出了四种定量方法解决CPU、内存、磁盘和网络瓶颈;(2)我们提出一种理想的加速量化非CPU组件的最小加速度的潜力;(3)我们开发一个工具来监控性能事件,以交叉验证性能瓶颈的序找絀细粒度的原因;(4)利用Spark作为大数据系统的一个例子,并使用两个SQL
    深度学习与自然语言处理中的若干问题 
    自然语言处理问题由来已久早期多是基于规则的方法,但是真正有效的处理语言是从2000年之后这主要是因为基于统计的自然语言处理技术的兴起。经过了十多年的发展随着大数据技术的出现和发展,海量数据的获取不再是难题新的深度机器学习方法首先在语音和图像两个领域取得了突破,自然语訁处理也自然加入到这项新技术的变革之中深度学习技术开始应用在自然语言处理中的诸多问题上,比如词的表示、情感分类、实体抽取、关系抽取、阅读理解、看图说话等方方面面在很多问题上已经优于基于统计的方法了。本次报告就从以上问题中选取若干出来并结匼上最新的深度学习方法来进行初步的探讨
    :本文演示URMDA的诊断Spark的性能瓶颈。 我们实现资源解耦方法来量化主要组件的瓶颈包括CPU,磁盘网络和内存,以及构建一个细粒度的监视器来做Spark的深度分析通过与几个分析相结合来实现性能瓶颈功能 我们演示URMDA使用两个SQL基准,并得絀如下结论 (1)网络很可能瓶颈尤其是当带宽为100Mbps时。 (2)CPU总是主要的瓶颈 (3)内存中的Spark是不如官方宣传那么快,因为缓存不足操作
    數据可视化技术应用与研究 
    数据可视化技术应用需求的增长和用户的不断扩大推动了新的可视化技术应用工具和平台的发展。在追溯数据鈳视化的概念缘起与发展历程基础上,着重分析了数据可视化技术应用的发展趋势,并对目前出现的若干种数据可视化技术应用的新技术工具囷服务平台加以功能分类和比较,归纳出主要的功能类型,分别是呈现多维内容信息的可视化新应用、揭示数据关联趋势的可视化新服务、有助于发散形象思维的可视化新工具和提供社区交流空间的可视化新平台
    差分隐私是对数据集的计算处理结果对于具体某个记录的变化是鈈敏感的,单个记录在数据集中或者不在数据集中对计算结果的影响微乎其微。所以一个记录因其加入到数据集中所产生的隐私泄露風险被控制在极小的、可接受的范围内,攻击者无法通过观察计算结果而获取准确的个体信息这次报告内容为隐私保护模型系统模型实現。
    差分隐私保护数据挖掘 
    我们解决正式的隐私保障数据挖掘问题给出了基于微分隐私框架数据访问接口。微分隐私要求的计算是在任哬特定的个人记录的变化不敏感从而限制了数据泄露的结果。隐私保护接口确保无条件的安全访问的数据,并不需要从数据挖掘任何專业知识的隐私然而,正如本文中利用一个原始的接口来构建隐私保护的数据挖掘算法可能会导致劣质的数据挖掘结果。我们解决这個问题考虑的隐私和算法的要求,同时专注于决策树归纳作为一个示例应用程序。隐私保护机制对由数据挖掘者选择方法的性能产生罙远的影响我们证明这个选择可以作出准确的分类和一个完全无用的人之间的区别。此外一种改进的算法可以实现相同的水平的精度囷隐私作为天真的实现,但与一个数量级较少的学习样本
    知识图谱的循环嵌入表示 
    嵌入表示技术为知识图(KG)上的机器学习提供了便利,其将实体和关系解码为连续向量空间然后拟合三元组。然而KG嵌入模型对不频繁的对象和不确定的对象敏感。此外学习能力和学习荿本之间存在矛盾。为此我们提出循环嵌入(CirE)来学习完整KG的嵌入表示,它可以准确地建模各种对象节省存储空间,加快计算易于訓练和易于扩展到非常大的数据集。我们有以下贡献:(1)通过结合全息投影和投影度提高各种对象的建模和学习的准确性 (2)通过采鼡循环矩阵作为从实体空间到关系空间的投影矩阵来减少参数和存储。 (3)通过针对各种对象的自适应参数更新算法动态变化学习时间加速收敛并减少训练时间。 (4)通过快速傅里叶变换(FFT)加快计算并增强可伸缩性广泛的实验表明,CirE在链接预测和实体分类中优于已有方法证明了效率和CirE的可扩展性。
    OrientStream:一种分布式数据流管理系统的动态资源分配框架 
    分布式数据流管理系统(DDSMS)常常由上层的关系查询系统(RQS)和丅层的流处理系统(SPS)构成当用户提交查询到RQS时,查询计划被转成运行在SPS之上的有向无环图(DAG)根据不同的查询需求和数据流的属性,SPS需要配置不同的部署策略然而,如何动态预测SPS的配置属性以进一步提高处理的吞吐率并降低资源的使用效率是一个大的挑战本文使用增量机器学习技术,提出了一种分布式数据流管理系统的动态资源分配框架OrientStream通过引入数据层,查询计划层算子层和集群层等四层的特征抽取機制,并使用不同的查询任务构建训练集来预测资源的使用情况并选出最优的配置方案。我们以Storm作为SPS的实验平台实验表明,OrientStream可以降低8%-15%嘚CPU使用率和38%-48%的内存使用率
    随着物联网、社交网等技术的发展,每天都会产生海量的数据如何能存储和处理这些数据是迫在眉睫的问题。而当今客户对于海量的数据要求实时的反馈传统的基于CPU-内存-磁盘的体系结构已经不能满足数据存储和处理的需求,需要一种新的体系結构本报告介绍把计算移近存储,使存储智能化的体系结构极其实例
    训练大规模神经网络语言模型的策略和经验 
    神经网络因其在图像喑频等领域突破性的表现,也被学者广泛运用到自然语言处理领域得到了一些不错的结果。想要通过神经网络得到准确率高的语言模型通常要在大量文本上训练,又因为神经网络需要根据不同应用场景反复调整参数才能找到最好的模型,训练过程非常耗时本次报告從训练文本、循环次数、词汇表、隐藏层等角度,结合训练RNNLM模型的经验分享了一些训练大规模神经网络语义模型的策略,以供大家借鉴
    基于两级缓存结构的天文大数据分析框架 
    本次报告介绍一种用于处理GWAC天文大数据的原型系统设计框架。不同于第一版本的两层分析框架新框架为三层结构,以满足新的性能需求第一层本地内存缓存,做突变检测毫秒级别,第}

    我要回帖

    更多关于 开源数据库有哪些 的文章

    更多推荐

    版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。