Crux HTML 正文内容提取库开源项目

我要开发同款
匿名用户2018年01月25日
37阅读
开发技术HTML/CSS
所属分类常用工具包、程序开发、机器学习/深度学习
授权协议Apache 2.0

作品详情

Crux 是一个 HTML 正文内容提取库,它通过分析Web 页面,以确定一篇文章的关键内容。该库由多个独立的API组成,可随意选择想使用的那个。比如说,如果你在Android应用中使用Crux,则可以使用Proguard或其他压缩工具来去除不需要的部分。

文章提取API:

可格式化提取内容丰富,不限于纯文本。

支持更多的网站和更好的页面整体解析。

支持更多的元数据格式:OpenGraph, TwitterCards,Schema.org 等

占用空间小,JSoup是唯一需要的依赖项。

更少的setters/getters,简单易用

能够使用默认的HttpUrlConnection之外的HTTP库,例如OkHttp。

代码简洁

高度支持通过Gradle导入AndroidStudio 项目

持续集成单元测试和goldenfile测试。

示例代码:

在后台线程中,发出网络请求并获取想要分析的页面的rawHTML。

String url = "https://example.com/article.html";String rawHTML = "<html><body><h1>This is an article</h1></body></html>";Article article = ArticleExtractor.with(url, rawHTML)    .extractMetadata()    .extractContent()  // If you only need metadata, you can skip `.extractContent()`    .article();

在UI线程上:

// Use article.document, article.title, etc.
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论