python boilerpipe python可以用于中文吗

点击联系发帖人 时间：2016-08-28 03:21

boilerpipe java

当前位置： &
4,415 次阅读 -
本文短链接 http://memect.co/B1DWuNo
一年来我们试用了很多正文提取的工具，准备在这个系列里做一个总结。相关的资源一共有15条，列在这里
会在今后十几条微博里介绍我们的经验教训。
首先推荐看Toma? Kova?i?’2011年很棒的总结。他的网站已经宕了，这里有一个pdf备份
Kova?i?的survey里，比较了两类产品，开源算法有Boilerpipe，Goose，Webstemmer等商业API有Alchemy， Diffbot， Readability， Extractiv等他做了benchmark测试，认为商业API在precision和recall上并不比当时的商业API强，Boilerpipe表现甚佳，详细列表如下在开源系统里Kova?i?发现Boilerpipe的precision和recall都好过Goose，甚至比收费的Alchemy API还要好。Boilerpipe是Java的，在Python里调用需要用python-boilerpipe这个包装，它底层用的是jpype。也可以用JCC来调。代码如下
Install (will install the java libs too)
sudo pip install boilerpipe
sudo pip install boilerpipe
用法很简单
from boilerpip.extract import Extractor extractor = Extractor(extractor='ArticleExtractor', url="")
from boilerpip.extract import Extractor extractor = Extractor(extractor='ArticleExtractor', url="")
或传入一个HTML文本作为参数
extractor = Extractor(extractor='ArticleExtractor', html=myWebPage)
extractor = Extractor(extractor='ArticleExtractor', html=myWebPage)
用getText() or getHTML() 拿回处理过的纯文本或加亮了正文的HTML
processed_plaintext = extractor.getText() highlighted_html = extractor.getHTML()
processed_plaintext = extractor.getText() highlighted_html = extractor.getHTML()
也可以用JCC把Java的包编译成Python可以调用的包
wget /files/boilerpipe-1.2.0-bin.tar.gz tar xvzf boilerpipe-*.tar.gz cd boilerpipe-1.2.0 sudo python -m jcc \ --jar boilerpipe-1.2.0.jar \ --classpath lib/nekohtml-1.9.13.jar \ --classpath lib/xerces-2.9.1.jar \ --package java.net \ java.net.URL \ --python boilerpipe --build --install
wget http:///files/boilerpipe-1.2.0-bin.tar.gz tar xvzf boilerpipe-*.tar.gz cd boilerpipe-1.2.0 sudo python -m jcc \ --jar boilerpipe-1.2.0.jar \ --classpath lib/nekohtml-1.9.13.jar \ --classpath lib/xerces-2.9.1.jar \ --package java.net \ java.net.URL \ --python boilerpipe --build --install
import boilerpipe
jars = ':'.join(('lib/nekohtml-1.9.13.jar', 'lib/xerces-2.9.1.jar'))
boilerpipe.initVM(boilerpipe.CLASSPATH+':'+jars)
extractor = boilerpipe.ArticleExtractor.getInstance()
url = boilerpipe.URL('')
extractor.getText(url)
原文链接：http://baojie.org/blog//python-text-extraction/
注：转载文章均来自于公开网络，仅供学习使用，不会用于任何商业用途，如果侵犯到原作者的权益，请您与我们联系删除或者授权事宜，联系邮箱：contact@dataunion.org。转载数盟网站文章请注明原文章作者，否则产生的任何版权纠纷与数盟无关。
相关文章！
不用想啦，马上发表自已的想法.
做最棒的数据科学社区
扫描二维码,加微信公众号
联系我们：推荐这篇日记的豆列
······}

51无线网

python boilerpipe python可以用于中文吗

我要回帖

更多关于 boilerpipe java 的文章

更多推荐