python boilerpipe python可以用于中文吗

当前位置: &
4,415 次阅读 -
本文短链接 http://memect.co/B1DWuNo
一年来我们试用了很多正文提取的工具,准备在这个系列里做一个总结。相关的资源一共有15条,列在这里
会在今后十几条微博里介绍我们的经验教训。
首先推荐看Toma? Kova?i?’2011年很棒的总结。他的网站已经宕了,这里有一个pdf备份
Kova?i?的survey里,比较了两类产品,开源算法有Boilerpipe,Goose,Webstemmer等 商业API有Alchemy, Diffbot, Readability, Extractiv等 他做了benchmark测试,认为商业API在precision和recall上并不比当时的商业API强,Boilerpipe表现甚佳,详细列表如下 在开源系统里Kova?i?发现Boilerpipe的precision和recall都好过Goose,甚至比收费的Alchemy API还要好。Boilerpipe是Java的,在Python里调用需要用python-boilerpipe这个包装,它底层用的是jpype。也可以用JCC来调。代码如下
Install (will install the java libs too)
sudo pip install boilerpipe
sudo pip install boilerpipe
用法很简单
from boilerpip.extract import Extractor extractor = Extractor(extractor='ArticleExtractor', url="")
from boilerpip.extract import Extractor extractor = Extractor(extractor='ArticleExtractor', url="")
或传入一个HTML文本作为参数
extractor = Extractor(extractor='ArticleExtractor', html=myWebPage)
extractor = Extractor(extractor='ArticleExtractor', html=myWebPage)
用getText() or getHTML() 拿回处理过的纯文本或加亮了正文的HTML
processed_plaintext = extractor.getText() highlighted_html = extractor.getHTML()
processed_plaintext = extractor.getText() highlighted_html = extractor.getHTML()
也可以用JCC把Java的包编译成Python可以调用的包
wget /files/boilerpipe-1.2.0-bin.tar.gz tar xvzf boilerpipe-*.tar.gz cd boilerpipe-1.2.0 sudo python -m jcc \ --jar boilerpipe-1.2.0.jar \ --classpath lib/nekohtml-1.9.13.jar \ --classpath lib/xerces-2.9.1.jar \ --package java.net \ java.net.URL \ --python boilerpipe --build --install
wget http:///files/boilerpipe-1.2.0-bin.tar.gz tar xvzf boilerpipe-*.tar.gz cd boilerpipe-1.2.0 sudo python -m jcc \ --jar boilerpipe-1.2.0.jar \ --classpath lib/nekohtml-1.9.13.jar \ --classpath lib/xerces-2.9.1.jar \ --package java.net \ java.net.URL \ --python boilerpipe --build --install
import boilerpipe
jars = ':'.join(('lib/nekohtml-1.9.13.jar', 'lib/xerces-2.9.1.jar'))
boilerpipe.initVM(boilerpipe.CLASSPATH+':'+jars)
extractor = boilerpipe.ArticleExtractor.getInstance()
url = boilerpipe.URL('')
extractor.getText(url)
原文链接:http://baojie.org/blog//python-text-extraction/
注:转载文章均来自于公开网络,仅供学习使用,不会用于任何商业用途,如果侵犯到原作者的权益,请您与我们联系删除或者授权事宜,联系邮箱:contact@dataunion.org。转载数盟网站文章请注明原文章作者,否则产生的任何版权纠纷与数盟无关。
相关文章!
不用想啦,马上 发表自已的想法.
做最棒的数据科学社区
扫描二维码,加微信公众号
联系我们:推荐这篇日记的豆列
······}

我要回帖

更多关于 boilerpipe java 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信