通过bert推理出每个token的embedding,再计算语料中相邻token之间的相似度,高于阈值就组合起来,低于阈值就不组合,然后再计算组合出的词语的整个置信度,可以看出,不少词语是常见词,其余通过百度也能得知是品牌词等,通过这样计算自动为搜索算法系统的分词词典提供充足的词源,提供分词质量
评论