个人介绍
5年系统运维管理和服务,3年网络安全管理经验,6年机器学习实战经验,能够快速掌握技术和原理实现功能开发,努力在安全数据科学领域实现新突破。系统全面地掌握机器学习、深度学习各算法的优缺点及其适用性,能够实现算法优化;系统、网络和安全等经验丰富,熟悉安全各业务场景,拥有安全架构思维。
工作经历
2023-04-01 -至今Bitget网络安全数据分析专家
● H5攻击流量检测:采集 WAF 攻击流量数据,构建二分类模型,实现业务网关8Gb/s入站流量的实时检测,有效攻击 payload 反哺 WAF 规则,结合威胁情报有效攻击 IP 反哺业务网关拦截; ● 敏感图片识别:使用 GPT 4大模型检测S3桶中的图片是否存在 KYC 敏感信息; ● 资产图谱:构建资产图谱,打通服务与服务,服务与人,服务与 IP ,服务与域名,服务与 URL ,服务与 GIT ,服务与中间件之间的关系,实现风险的快速定位与响应; ● 日志分析:分析挖掘 ElKEID 入侵检测数据,Dataworks 构建进程白名单,供 HUB 实时消费;对 ELKEID 中的数据库访问进行画像,针对异常访问关系进行实时告警;
2020-08-24 -2023-03-31奇安信AI算法工程师
● 网站流量数据:分析、挖掘网站流量特征,构建二分类、多分类文本及图片模型,实现每天2000w+网站数据的诈骗及业务属性的实时检测,辅助特征匹配和规则模版,诈骗站点整体检出能力提升30%-50%; ● APP 应用数据:构建多分类及图模型,辅助分析师挖掘关联特征和插件提取;提取 xml 文件内标签属性值,构建文本向量,通过相似性泛化,快速定位诈骗 APP 及其家族,构建团伙图谱,协助网警追踪打击团伙作案;
教育经历
2006-09-10 - 2009-06-20淮阴师范学院数字媒体技术本科已认证
主要培养高初中电脑老师为目标,掌握技能,文字处理,表格等工具,包括网页制作,动画制作,多媒体工具饿使用
技能
● 项目描述:1 万+恶意软件训练样本,9 种类别,实现1 万+测试样本分类。 ● 使用工具:Python、Numpy、Pandas、Scikit Learn、OpenCV、IDA Pro ● 数据选择:随机抽取99 个训练样本和99 个测试样本,简化样本分类不均衡问题; ● 特征抽取:应用恶意软件灰度图、提取Opcode 和Bytes 等方式,创新使用HMM 提取Score; ● 算法选择:运用LR、DTC、SVC、RF、XGBoost 等8 种分类算法实践测试,并对比各算法特点及在项目中的适应性; ● 评估指标:采用准确率作为主要评估指标; ● 项目结果:准确率在0.75~0.85 之间,因训练样本过少,存在一定的过拟合,可通过增加训练样本、特征筛选、组合特征、交叉验证等方式提升准确性。
1. 检查4G流量中的诈骗网站,如贷款、投资理财、刷单、网购等诈骗类型,用于封堵拦截; 2. 数据流向:过黑白名单 - 过host模型 - 过title/content/截图模型 - 收口;
● 项目起因:介于现今很多SOC都过于表现化,并不能很好地辅助安全运营快速发现 ● 项目目标:构建简单、易用、实时、高效的开源SOC 平台; ● 使用工具:Python、Flask、Flume、Kafka、Hadoop、Spark、Flink、DeepLearning4J、Neo4J; ● 关键要点: 1. 第一大屏- 运维安全指标,主要呈现核心设备的系统信息,如CPU、内存、网络、进程等重要信息; 2. 第二大屏- 数据中心所有设备详细列表及滚动告警; 3. 第三大屏- 抽取数据中心所有设备日志,统计分析发现异常; 4. 第四大屏- 直观呈现核心节点运营状态和攻击行为; 5. 第五大屏- 攻击链路呈现,辅助威胁情报,实现IP、域名等潜在威胁的呈现。