点击空白处退出提示
搜索引擎1
我要开发同款作品详情
1.支持搜索存文本信息。
2.支持搜索结果按条目分页展示。
3.实现了关联度算法,把关联度高的信息优先展示。
技术栈:
1.分词采用开源的jieba分词库。首先将悟空数据集所有的文本数据进行分词创建倒排索引,并建立分词-文本关系表。
2.关联度算法直接采用tfidf(来自jieba分词库)。
3.使用布隆过滤、分表来进行简单优化。
原理:
1、将爬虫爬来的数据放入data表中,从data表中处理数据生成segment表
2、用data表和segment表生成data_segment_relation表
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论