Familia 中文主题建模工具包开源项目

我要开发同款
匿名用户2017年07月18日
47阅读
开发技术C/C++
所属分类人工智能
授权协议BSD

作品详情

Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型:LatentDirichletAllocation(LDA)、SentenceLDA和TopicalWordEmbedding(TWE)。支持用户以“拿来即用”的方式进行文本分类、文本聚类、个性化推荐等多种场景的调研和应用。考虑到主题模型训练成本较高以及开源主题模型资源有限的现状,我们会陆续开放基于工业级语料训练的多个垂直领域的主题模型,以及这些模型在工业界的典型应用方式,助力主题模型技术的科研和落地。

应用介绍

Familia目前包含的主题模型的对应论文介绍可以参考相关论文。

主题模型在工业界的应用范式可以抽象为两大类:语义表示和语义匹配。

语义表示(SemanticRepresentation)

  对文档进行主题降维,获得文档的语义表示,这些语义表示可以应用于文本分类、文本内容分析、CTR预估等下游应用。

语义匹配(SemanticMatching)

计算文本间的语义匹配度,我们提供两种文本类型的相似度计算方式:

短文本-长文本相似度计算,使用场景包括文档关键词抽取、计算搜索引擎查询和网页的相似度等等。

长文本-长文本相似度计算,使用场景包括计算两篇文档的相似度、计算用户画像和新闻的相似度等等。

更详细的内容及工业界应用案例可以参考FamiliaWiki

代码编译

第三方依赖包括gflags-2.0,glogs-0.3.4,protobuf-2.5.0,同时要求编译器支持C++11, g++>=4.8,兼容Linux和Mac操作系统。默认情况下执行以下脚本会自动获取依赖并安装。

$ sh build.sh # 包含获取并安装第三方依赖的过程

 

模型下载$ cd model$ sh download_model.sh

 

关于模型的详细配置说明可以参考模型说明

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论