Crux HTML 正文内容提取库_开源项目-程序员客栈

Crux 是一个 HTML 正文内容提取库，它通过分析Web 页面，以确定一篇文章的关键内容。该库由多个独立的API组成，可随意选择想使用的那个。比如说，如果你在Android应用中使用Crux，则可以使用Proguard或其他压缩工具来去除不需要的部分。

文章提取API：

可格式化提取内容丰富，不限于纯文本。

支持更多的网站和更好的页面整体解析。

支持更多的元数据格式：OpenGraph， TwitterCards，Schema.org 等

占用空间小，JSoup是唯一需要的依赖项。

更少的setters/getters，简单易用

能够使用默认的HttpUrlConnection之外的HTTP库，例如OkHttp。

代码简洁

高度支持通过Gradle导入AndroidStudio 项目

持续集成单元测试和goldenfile测试。

示例代码：

在后台线程中，发出网络请求并获取想要分析的页面的rawHTML。

String url = "https://example.com/article.html";String rawHTML = "<html><body><h1>This is an article</h1></body></html>";Article article = ArticleExtractor.with(url, rawHTML) .extractMetadata() .extractContent() // If you only need metadata, you can skip `.extractContent()` .article();

在UI线程上：

// Use article.document, article.title, etc.

Crux HTML 正文内容提取库开源项目

作品详情

重点城市程序员兼职推荐

重点岗位程序员兼职推荐