Boilerpipe HTML 正文内容提取库开源项目

我要开发同款
匿名用户2018年01月24日
60阅读
开发技术Java
所属分类人工智能、机器学习/深度学习
授权协议Apache 2.0

作品详情

Boilerpipe是一个能从HTML中剔除广告和其他附加信息,提取出目标信息(如正文内容、发布时间)的Java库。其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息。

Boilerpipe的包结构:

boilerpipe,根目录document,文档包,定义了boilerpipe所处理文档数据类型,主要包括TextDocument和TextBlock。一个TextDocument即一个网页,由多个TextBlock构成。lables,标签,每个TextBlock都有一个lable字段,表示该TextBlock的属性(如是不是正文)。filters,过滤器,定义了多个过滤器,过滤器的作用即对TextBlock进行过滤,使用机器学习、统计、启发式方法等数据挖掘算法判断哪些TextBlock是所需要的(正文段),给TextBlock加上lable,去除无关的TextBlock。sax,SAX解析器,定义了从各种来源获取并解析网页的方法。extractors,提取器,提取流程的入口。每个extractor都定义了自己的提取方法,通过调用不同的filter达到不同的处理效果。conditions,条件判断,判断一个TextBlock是否满足特定的条件。estimators,评估器,评估一个extractor对特定document的提取效果。调用关系图示: 

介绍内容摘自:CSDN

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论