请问 那个攻略貌似纯洁解压后是很多xml文...

回答的人数和内容越多越好...如果这个文件里面没有什么内容和这文件夹有关系的话说明一下,如果有关系说出关系觉得所有内容都有关系的话,指出必须要这个…

}

维基百科是搞自然语言处理的人經常想用到的语料库, 但是因为其文本是带有xml标签的raw数据, 所以很多人望而生畏. 这篇post主要讲一下如何获取/解析/清理维基百科的数据.

下载数据有兩种方式, 一种是直接从维基百科的官网下载, 地址是: , .

但是我尝试了几次都下载失败, 因为下载时间过长, 总有各种原因导致失败.

后来用了百度的離线下载, 先保存到网盘, 然后再用客户端慢慢下, 下了半天终于搞定, 这是我们的网盘资源链接: 密码:3ztw.

注意使用k参数, 否则会删除源文件.

我尝试叻各种方式, 比如gensim内置的wikicorpus/, 但是都不是很理想, 比如你没法拿到你最感兴趣的内容. 所以就决定自己解析.

数据是这样的xml(这是我从网上找的, 这个文件實在是太大):

 
 
}

我要回帖

更多关于 貌似纯洁 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信