FastEntityLinker用于训练模型,以将实体链接到文档和查询中的知识库(维基百科),是一款无监督、准确、可扩展多语言实体名称识别和链接系统,同时包含英语、西班牙语和中文数据包。
在算法上,使用了实体嵌入,click-log数据和高效聚类等方法来实现高精度。该系统通过使用压缩数据结构和主动散列函数以实现低内存占用和快速执行。实体嵌入(Entityembeddings)是基于向量的表示,它捕获上下文中引用实体的方式。
目前,快速实体链接器(FastEntityLinker)是仅有的三个可用于多语言实体命名识别和链接系统(其他是DBpediaSpotlight和Babelfy)之一。除了独立的实体链接器,这一软件还包括了可用于创建和压缩来自维基百科的不同语言中的词/实体嵌入和数据包等工具。其中,包含了所有英语维基百科信息的数据包只有2GB!
开源工具包中有许多可用的应用程序,其中之一是将情绪归于文本中检测到的实体,而不是整个文本本身。许多现有的情绪分析工具将与文本相关联的情感值整理作为一个整体处理,这使得系统很难跟踪用户对任何单独实体的情绪。使用我们的工具包,开发者们可以让系统自动提取给定文本中的“正面”和“负面”信息,从而更清楚地了解用户对各个单独实体的情绪。
评论