陈陈陈Chan
1月前来过
全职 · 300/日  ·  6525/月
工作时间: 工作地点: 远程
服务企业: 1家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

个人开发者

工作经历

  • 2022-07-19 -2022-09-16广东蔚海数问大数据科技有限公司数据分析师

    【项目概述】 对专利数据提取关键词和关键短语、文本分类和语义检索。 根据用户输入专利的摘要, 召回相似的专利 【责任描述】 负责利用 KeyBERT 思想提取专利文本中的关键词和关键短语 负责搭建 NLP 分类模型:对专利摘要数据根据主 IPC 字段进行分类 负责利用基于领域预训练和对比学习 SimCSE 方法增强模型语义表征能力 负责搭建基于 PaddlePaddle 与 Milvus 的通用语义检索系统框架 负责利用并行粒子群算法调整不同字段的向量权重, 合并为单一向量

教育经历

  • 2023-09-04 - 2026-07-01中山大学计算机科学与技术硕士

  • 2019-09-02 - 2023-07-01华南师范大学人工智能本科

技能

自然语言处理
0
1
2
3
4
5
作品
专利文本语义检索项目

【项目概述】 对专利数据提取关键词和关键短语、文本分类和语义检索。根据用户输入专利的摘要, 召回相似的专利 【责任描述】 负责利用 KeyBERT 思想提取专利文本中的关键词和关键短语 负责搭建 NLP 分类模型:对专利摘要数据根据主 IPC 字段进行分类 负责利用基于领域预训练和对比学习 SimCSE 方法增强模型语义表征能力 负责搭建基于 PaddlePaddle 与 Milvus 的通用语义检索系统框架 负责利用并行粒子群算法调整不同字段的向量权重, 合并为单一向量

0
2023-04-10 23:50
交易数据挖掘

【项目概述】 对广州公共资源交易中心的数据进行知识挖掘, 负责该系统数据分析所有核心模块的开发 【责任描述】 对上传的文档进行相似文档检测及相似文档推荐 构建交易价格指数体系、市场运行指数体系

0
2023-04-10 23:51
中文新闻文本标题分类

【项目概述】 针对清华 NLP 公布的 THUCNews 数据集, 利用集成学习、半监督学习等方式, 使用预训练模型, 对数据集进行分类, 并不断提高在测试集上的准确率 【责任描述】 数据预处理:数据清洗、数据增强、样本不平衡处理等 模型选择:使用已有的在中文文本上的预训练模型进行微调 集成学习:利用模型结果加权融合的方法, 得到准确率更高的结果 半监督学习:利用直推学习的方法, 在原有数据集的基础上加入伪标签, 进一步提高准确率

0
2023-04-10 23:52
更新于: 2022-11-19 浏览: 140