HTML 正文内容提取库 Boilerpipe | 软件推介

论坛 期权论坛 期权     
开源中国   2019-7-27 14:45   3830   0

Boilerpipe 是一个能从 HTML 中剔除广告和其他附加信息,提取出目标信息(如正文内容、发布时间)的 Java 库。

授权协议:Apache
开发语言:Java
操作系统:跨平台

Boilerpipe 是一个能从 HTML 中剔除广告和其他附加信息,提取出目标信息(如正文内容、发布时间)的 Java 库。其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息。

Boilerpipe 的包结构:




boilerpipe,根目录document,文档包,定义了 boilerpipe 所处理文档数据类型,主要包括 TextDocument 和 TextBlock 。一个 TextDocument 即一个网页,由多个 TextBlock 构成。lables,标签,每个 TextBlock 都有一个 lable 字段,表示该 TextBlock 的属性(如是不是正文)。filters,过滤器,定义了多个过滤器,过滤器的作用即对 TextBlock 进行过滤,使用机器学习、统计、启发式方法等数据挖掘算法判断哪些 TextBlock 是所需要的(正文段),给 TextBlock 加上 lable ,去除无关的 TextBlock 。sax,SAX 解析器,定义了从各种来源获取并解析网页的方法。extractors,提取器,提取流程的入口。每个 extractor 都定义了自己的提取方法,通过调用不同的 filter 达到不同的处理效果。conditions,条件判断,判断一个 TextBlock 是否满足特定的条件。estimators,评估器,评估一个 extractor 对特定 document 的提取效果。调用关系图示:



介绍内容摘自:CSDN



推荐阅读[h1][/url][/h1][h1][url=http://mp.weixin.qq.com/s?__biz=MjM5NzM0MjcyMQ==&mid=2650078048&idx=1&sn=6ed6e07c9967cb91dabbc8b12e39f5b8&chksm=bedb200e89aca9182530bc7161969aeb8c974f358c6f3f43217f0058c0cf6bb3821e3edf31fa&scene=21#wechat_redirect]Linus Torvalds 恶评 Intel 漏洞修复补丁:完全就是垃圾!
[/h1][h1]教育部:AI、算法、开源硬件等进入全国高中新课标[/h1][h1]2017 年度码云新增项目排行榜 TOP 50,为它们打“call[/h1][h1]Bootstrap 4 正式发布!带来新的示例和新的主题[/h1][h1]Java 9 逆天的十大新特性[/h1]

点击“阅读原文”查看更多精彩内容
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:113
帖子:20
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP