GNE-JS 新闻网页正文通用抽取器开源项目

我要开发同款
匿名用户2019年10月09日
68阅读
开发技术TypeScript
所属分类网络爬虫、应用工具
授权协议MIT

作品详情

GNE-JS是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。

在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。

该项目启发自 GNE,由Python迁移到Node.js,并做了一些改动,提高提取准确度。

demo:

https://general-news-extractor-demo.stayin.cn

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论