网页正文抽取

时间：2015-10-20 13:47:25 阅读：147 评论：0 收藏：0 [点我收藏+]

标签：

转自丕子：http://www.zhizhihu.com/html/y2013/4202.html

总结我用过的网页正文抽取工具： decruft http://t.cn/S7bVEC python-readabilityhttp://t.cn/zYeoZ8b boilerpipe http://t.cn/h41EEs python-boilerpipehttp://t.cn/zYeoyPw pismo http://t.cn/zYeoyP2 Goose http://t.cn/zYeoZ8G Python Goose http://t.cn/zYeoZ8q

@丕子:有个测试链接：http://jimplush.com/blog/goose 测试了个链接，goose没提出来，cx-ectractor提出来了；不过goose的metadata以及image等不错；谁有空写个吧，两者优点结合一下。

@52nlp: 转cx-ectractor(http://t.cn/hDO2xf )的维护者 @陈鑫Shin @王利锋Fandy //@陈阿荣: cx-extractor //@马少平THU: 这个确实有难度，我们也没有什么好方法。@王利锋Fandy: 在我的硕士论文中给出了形式化数学表示，详细请见：http://t.cn/zYeAJSc，希望对大家有帮助

木子海波：自吹自擂一下。http://blog.csdn.net/marising/article/details/6101101

开源中国：可看看这个开源项目 http://t.cn/zYeL9Jn

数据挖掘研究院：h2w.iask.cn

licstar：NReadability http://t.cn/zYewPMn

我不是勒瑟：搜一下这篇论文：DOM Based Content Extraction via Text Density

@梁斌推一下，各大公司都有做这个的，搜狗这个叫PA，page analysis，我也短期维护过，目前是某哥们再搞

最后：http://tomazkovacic.com/blog/56/list-of-resources-article-text-extraction-from-html-documents/

@KissDev

正文抽取的开源代码，基于文本密度的html2article: http://t.cn/8FvHNOY 基于标签比例的机器学习Dragnet：http://t.cn/RhnDNg0 专注新闻类网页提取的Newspaper：http://t.cn/RhnDNgW 集成goose等三种算法的readbilitybundle http://t.cn/RhnDNgO 我觉得最好的方法还可能是视觉系方法

网页正文抽取

标签：

原文地址：http://www.cnblogs.com/chybot/p/4894343.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行