于内容评价的爬行策略:DeBra将文本相似度的计算方法引入到网络爬虫中,提出了 Fish Search 算法,它将用户输入的查询词作为主题,包含查询词的页面被视为与主题相关,其局限性在于无法评价页面与主题相关度的高低。 Herseovic对 Fish Search 算法进行了改进,提出了 Sharksearch 算法,利用空间向量模型计算页面与主题的相关度大小。
评论