spaCy是一个Python和CPython的NLP自然语言文本处理库。它建立在最新的研究基础上,从设计的第一天起就被用于实际产品中。
spaCy自带预训练的管道,目前支持60多种语言的标记化和训练。它具有最先进的速度和神经网络模型,可用于标记、解析、命名实体识别、文本分类等,使用BERT等预训练的变换器进行多任务学习,以及生产就绪的训练系统和简单的模型打包、部署和工作流管理。
特性:
支持60多种语言经过训练的管道可以处理不同的语言和任务使用像BERT这样的预训练变压器进行多任务学习支持预训练的单词向量和嵌入最先进的速度生产就绪培训系统语言驱动的标记化用于命名实体识别、词性标记、依存关系分析、句子分段、文本分类、词义化、形态分析、实体链接等的组件使用自定义组件和属性可轻松扩展支持PyTorch、TensorFlow和其他框架中的自定义模型内置用于语法和NER的可视化工具易于模型打包、部署和工作流管理可靠的、经过严格评估的精确度
评论