个人介绍
我在机器学习、自然语言处理和软件开发方面有着坚实的研究和工程背景。我专注于机器学习、自然语言处理和软件开发,并且在设计和实施说话者识别系统的后门攻击、文本数据增强和对抗训练NLP模型方面具有相关经验。
我有开发实际的说话者识别系统后门攻击的经验,同时设计和实现了多种机器学习算法,用于文本数据增强、NLP模型和股票预测等任务。我的研究工作在2022年国际信息安全实践与经验会议(ISPEC)上发表了论文,涉及使用VoxCeleb1数据集和数据污染,设计了一个攻击ResNet34-based说话者识别系统的白盒后门攻击系统。我的数字攻击成功率超过89%,物理攻击成功率达到70%。
我还参与了开发用C语言编写的高性能二次规划求解器、股票预测策略和远程医疗服务应用程序。我有设计和开发高维数值算法的后端系统的经验,与前端工程师合作提供图形界面,并将后端与第三方API集成的经验。我还使用OpenACC和OpenMP对无人机导航系统的光线追踪和云点重建模块进行并行化处理,平均提高系统运行时间48.7%。此外,我设计和训练了一个基于区域的卷积神经网络用于人体检测,通过数据混洗和dropout,在测试数据集上实现了94.8%的准确率。
此外,我还有设计和微调各种机器学习算法的经验,例如用于文章分类的随机森林和使用A*搜索、迭代加深DFS、BFS、次优搜索和强化学习等搜索算法的Pacman AI代理。我精通Python、C/C++、Java、SQL、HTML和Matlab等编程语言,以及PyTorch、TensorFlow/Keras、Scikit-learn、CUDA、AWS、Docker、BERT、Transformer、神经网络和SVM等机器学习框架。
总体而言,我在软件工程、机器学习、自然语言处理和后端开发方面具备强大的技术能力。我在数据增强和对抗训练方面的经验对于开发强健的机器学习模型尤为重要,而我在C语言中高效实现算法的经验对于优化和性能工程的角色非常有价值。我相信我的项目领导能力、创造性问题解决能力以及交付高质量结果的能力使我成为任何需要强大技术技能和创造性问题解决能力的角色的理想候选人,尤其是在软件工程和机器学习工程领域。我于2023年5月硕士毕业。
工作经历
2021-09-02 -2022-11-30波士顿大学硕士研究员
• 对说话人识别系统进行后门攻击 o 设计了一个白盒后门攻击系统,使用 VoxCeleb1 数据集和数据污染,攻击基于 ResNet-34 的说话人识别 系统和开源说话人识别平台 Kaldi。这是首个全面攻击说话人识别系统的工作。 o 设计了两个常见说话人识别任务的数字和物理后门攻击:说话人验证任务和闭集说话人识别任务。 o 在这两个任务上实现了 89%以上的数字攻击成功率和 70%以上的物理攻击成功率(ISPEC 2022, Long paper)。 • 通过文本数据增强以提升 NLP 模型的性能 o 通过创建同义词和反义词样本以及特征空间优化来微调RoBERTa。在文本分类任务中比基准RoBERTa 模型准确率提高了约 5.4%,在文本相似性任务中达到了约 0.907 的皮尔逊积矩相关系数。 o 使用数据增强方法将SQuAD问答数据集转换为掩码语言模型数据集,以丰富域外数据的代表性, 并微调了 Hugging Face DistilBERT 模型,将其问答性能提高了约 3.3% (基于 F1 分数)。 o 对Covid19推文文本进行数据增强以预测转推次数,在LSTM-GRU上实现
2021-06-15 -2021-09-01Prossimo Tech算法工程师
• 为 PAAS 风险管理创业公司实现了一套后端系统 o 使用 C, Ctypes, 和 Python 设计,开发,和测试了一个高效的内存和计算后端,实现了 Vanilla PCA, James-Stein PCA 和多个市场风险指标。 o 将每日、每月、每季度和每年的市场数据上传到AWS并撰写端口进行调用。使用Sphinx编写了文档供 参考。 o 与前端工程师合作,为金融数据分析提供了图形界面,包括时间序列相位图、原始和处理后的数据的上 传/下载以及生成 PDF 或 Latex 格式的分析报告。
2020-10-01 -2021-03-31Artera (WELL HEALTH®)软件开发工程师
• 作为一个 5 人团队与 Artera 合作设计了一款远程医疗服务应用程序。 o 带领一个5人团队使用React作为前端、Express.js作为后端,并使用GoogleFirebase作为数据库构建了 网络服务。 o 将后端与 AWS Medical Transcribe API 集成,实时捕获和转换对话数据。 o 使用 Medline Plus API 在 JavaScript 中开发了文本分类功能,实时从提取的对话数据中识别医学术语,能 够正确识别语料库中 96%的术语。 o 设计开发了显示患者病历、提供识别的医学术语解释以及生成HTML医疗预约报告的网页。
2019-10-01 -2021-08-31加州大学圣塔芭芭拉分校本科研究员
• C 语言高性能二次规划求解器 o 使用 GNU GSL 库设计,开发,和测试了一个高效的内存和计算后端,实现了高斯-约当线性求解器 (luciusluo/matrix-inverse)和一个二次规划求解器来求解仅包含多头头寸的最小方差投资组合的半显式解。 o 使用Ctypes将代码封装成Python包(luciusluo/ffp_minvar),将算法的Python原版运行时间加速了11倍。 o 将包发布到PyPI(名称:ffp_minvar),已被CSDN和学术界收录(清华大学,上海交通大学)。 • Hull Tactical 股票预测比赛 o 带领一个由4人组成的团队开发了股票预测策略,在最具创意类别中获得了第4名(共20支队伍)。 o 设计了一个数据处理流水线来预处理S&P500的时间序列数据,用于训练和交叉验证。 o 基于“DeepAR”论文和技术博客,使用AWSSagemaker和PyTorch实现了一个包含LSTM单元的自回 归递归网络模型,用于时间序列预测。 o 在AWSGPU实例上部署、训练和测试了模型。2020年5月份标普500指数的在线预测中,实现每日均 方
教育经历
2021-09-02 - 2023-05-21波士顿大学计算机科学与技术硕士
• GPA: 3.7/4.0 • 硕士研究助理奖学金 2021-2022
2017-09-26 - 2021-06-15加州大学圣塔芭芭拉分校计算机工程本科
• GPA: 3.6/4.0 • 院长荣誉榜 2017-18,2018-19,2021
技能
• 为 PAAS 风险管理创业公司实现了一套后端系统 o 使用 C, Ctypes, 和 Python 设计,开发,和测试了一个高效的内存和计算后端,实现了 Vanilla PCA, James-Stein PCA 和多个市场风险指标。 o 将每日、每月、每季度和每年的市场数据上传到AWS并撰写端口进行调用。使用Sphinx编写了文档供 参考。 o 与前端工程师合作,为金融数据分析提供了图形界面,包括时间序列相位图、原始和处理后的数据的上 传/下载以及生成 PDF 或 Latex 格式的分析报告。
• 对说话人识别系统进行后门攻击 o 设计了一个白盒后门攻击系统,使用 VoxCeleb1 数据集和数据污染,攻击基于 ResNet-34 的说话人识别 系统和开源说话人识别平台 Kaldi。这是首个全面攻击说话人识别系统的工作。 o 设计了两个常见说话人识别任务的数字和物理后门攻击:说话人验证任务和闭集说话人识别任务。 o 在这两个任务上实现了 89%以上的数字攻击成功率和 70%以上的物理攻击成功率(ISPEC 2022, Long paper)。 • 通过文本数据增强以提升 NLP 模型的性能 o 通过创建同义词和反义词样本以及特征空间优化来微调RoBERTa。在文本分类任务中比基准RoBERTa 模型准确率提高了约 5.4%,在文本相似性任务中达到了约 0.907 的皮尔逊积矩相关系数。 o 使用数据增强方法将SQuAD问答数据集转换为掩码语言模型数据集,以丰富域外数据的代表性, 并微调了 Hugging Face DistilBERT 模型,将其问答性能提高了约 3.3% (基于 F1 分数)。 o 对Covid19推文文本进行数据增强以预测转推次数,在LSTM-GRU上实现了约149的平均绝对误 差(Kaggle Best Performance 127),在情感分析任务上的分类准确率达到约 93.7%。
• C 语言高性能二次规划求解器 o 使用 GNU GSL 库设计,开发,和测试了一个高效的内存和计算后端,实现了高斯-约当线性求解器 (luciusluo/matrix-inverse)和一个二次规划求解器来求解仅包含多头头寸的最小方差投资组合的半显式解。 o 使用Ctypes将代码封装成Python包(luciusluo/ffp_minvar),将算法的Python原版运行时间加速了11倍。 o 将包发布到PyPI(名称:ffp_minvar),已被CSDN和学术界收录(清华大学,南京大学)。 • Hull Tactical 股票预测比赛 o 带领一个由4人组成的团队开发了股票预测策略,在最具创意类别中获得了第4名(共20支队伍)。 o 设计了一个数据处理流水线来预处理S&P500的时间序列数据,用于训练和交叉验证。 o 基于“DeepAR”论文和技术博客,使用AWSSagemaker和PyTorch实现了一个包含LSTM单元的自回 归递归网络模型,用于时间序列预测。 o 在AWSGPU实例上部署、训练和测试了模型。2020年5月份标普500指数的在线预测中,实现每日均 方根误差小于 2.35。