Crux 是一个 HTML 正文内容提取库,它通过分析Web 页面,以确定一篇文章的关键内容。该库由多个独立的API组成,可随意选择想使用的那个。比如说,如果你在Android应用中使用Crux,则可以使用Proguard或其他压缩工具来去除不需要的部分。
文章提取API:
可格式化提取内容丰富,不限于纯文本。
支持更多的网站和更好的页面整体解析。
支持更多的元数据格式:OpenGraph, TwitterCards,Schema.org 等
占用空间小,JSoup是唯一需要的依赖项。
更少的setters/getters,简单易用
能够使用默认的HttpUrlConnection之外的HTTP库,例如OkHttp。
代码简洁
高度支持通过Gradle导入AndroidStudio 项目
持续集成单元测试和goldenfile测试。
示例代码:
在后台线程中,发出网络请求并获取想要分析的页面的rawHTML。
String url = "https://example.com/article.html";String rawHTML = "<html><body><h1>This is an article</h1></body></html>";Article article = ArticleExtractor.with(url, rawHTML) .extractMetadata() .extractContent() // If you only need metadata, you can skip `.extractContent()` .article();在UI线程上:
// Use article.document, article.title, etc.
评论