中文分词库

LibMMSeg 简介 LibMMSeg 是Coreseek.com为 Sphinx 全文搜索引擎设计的中文分词软件包,其在GPL协议下发行的中文分词法,采用Chih-Hao Tsai的MMSE...
390C/C++中文分词库
ChineseUtil PHP 中文工具类,支持汉字转拼音、拼音分词、简繁互转。 PHP Chinese Tool class, support Chinese pinyin, pinyin p...
410PHP中文分词库
结巴分词插件(for elasticsearch),目前支持0.90.*以上版本 ---------------------------------------------------- | J...
460Java中文分词库
中科院ICTCLAS (FreeICTCLAS)最新free开放源代码,里面有中文分词算法,大家一起共同学习和研究,对搜索引擎中文分词方面有很大用处哦
520C/C++中文分词库
THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。 ...
350C/C++中文分词库
FoolNLTK 中文处理工具包 特点 可能不是最快的开源中文分词,但很可能是最准的开源中文分词 基于BiLSTM模型训练而成 包含分词,词性标注,实体识别, 都有比较高的准确率 用户自定义词典...
430Python中文分词库
CC-CEDICT 是一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,截至2009年2月8日,已收录82712个单词。其词典可以用于中文分词使用,而且不存在版权问题。Chrome中...
740中文分词库
ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目,简化了原分词程序的复杂度,旨在为广大的中文分词爱好者一个...
380Java中文分词库
NChinese 是一套用來處理中文字詞的函式庫,使用 C# 和 C 编写。目前具備的功能,主要是反查一串中文字的注音或拼音。 安裝 使用 Nuget 套件管理員來安裝,或執行下列命令: I...
500C/C++中文分词库
simple 是一个支持中文和拼音的 sqlite3 fts5 拓展。它完整提供了 微信移动端的全文检索多音字问题解决方案 一文中的方案四,非常简单和高效地支持中文及拼音的搜索。 实现相关介绍:...
1020C/C++中文分词库
IKAnalyzer.NET 是 IKAnalyzer 中文分词器在 .NET 平台下的实现。
1180C#中文分词库
gse 是一个 Go 语言高效分词, 支持英文、中文、日文等。 词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划, 以及 DAG 和 ...
1570中文分词库
博文的 java 实现,可以自动抽取语料库中的词汇,可以作为自然语言处理的第一步,准备词典。 成词条件 互信息 左右熵 位置成词概率 ngram 频率 运行方法 下载或者gradle distT...
360Java中文分词库
NLPIR (自然语言处理与信息检索共享平台)是一个强大的中文分词库,
630中文分词库
Friso是使用c语言开发的一款开源的高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP,源码无需修改就能在各种平台下...
490C/C++中文分词库
一个用C++实现的 中文句法分析 工具包,采用的是中文宾州树库标准(Chinese Tree Bank),并提供源代码。 可以对原始的文档(GBK编码)进行自动繁简转换,分句,分词,词性标注,依...
780C/C++中文分词库
TextGrocery 是一个基于SVM算法的短文本分类工具,内置了结巴分词,让文本分类变得简单。 示例代码: >>> from tgrocery import Grocery # 新开张...
570C/C++中文分词库
NodeJieba "结巴"分词的Node.js版本 Introduction NodeJieba只是CppJieba简单包装而成的node扩展,用来进行中文分词。 详见NodeJiebaBlo...
600JavaScript中文分词库
Jcseg 是什么? Jcseg 是基于 mmseg 算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的 lucene, ...
410Java中文分词库
HTTPCWS是一款Linux下的基于HTTP协议的开源中文分词系统,采用BSD协议。 这个分词系统是对中国科学院计算技术研究所免费提供的 ICTCLAS 3.0 共享版分词后的结果,再采用逆向...
1110C/C++中文分词库
当前共66个项目
×
寻找源码
源码描述
联系方式
提交