个人头像

龚鸥波

大模型算法工程师

联系方式

✉️ 461600371@email.com
💬 微信:15926459981

核心技能

Python PyTorch CUDA 深度学习 Docker PostgreSQL Embedding VLLM SGLang 文本分类 命名实体识别 SFT DPO 垂域大模型 模型量化 向量检索 RAG 全栈开发

教育经历

2017-2020

硕士 - 软件工程

武汉理工大学

2014-2017

本科 - 软件工程

武汉理工大学

工作经历

2023-至今

大模型算法工程师

深圳云天励飞技术股份有限公司

2022-2023

NLP算法工程师

深圳赋乐科技集团有限公司

2020-2022

NLP算法工程师

中兴-南京中新赛克科技有限责任公司

项目经验

🚀 天书大模型

项目背景:负责天书大模型的SFT,赋能垂域大模型。包括数据的预处理、模型的训练以及部署、评测的整个生命周期。
项目技术:pytorch、megatron-lm、text-inference-generation、llm-bench、sft、fasttext

数据阶段:

• 预训练数据过滤:训练fasttext质量过滤模型以及基于n-gram的模型过滤掉质量较低的预训练语料

• 微调数据处理:收集整理开源SFT语料,进行ppl过滤、规则过滤、去重等操作;针对垂域数据(公文写作、扩改润续缩等),蒸馏ChatGPT数据并从书籍中抽取高质量语料

模型训练:

• 采用megatron-lm作为基本训练框架,进行多机多卡训练

• 第一阶段使用通用SFT数据预训练,第二阶段采用通用数据和垂域数据7:3混合训练得到垂域大模型

• 对于多轮对话数据,只训练answer部分以加速训练

模型部署与评测:

• 使用TGI作为部署框架,与华为合作部署到910B服务器

• 在ceval、cmmlu等外部榜单及内部Llm-bench上进行评测,垂域任务构建测试集进行人工评测

项目成果:天书大模型在ceval、cmmlu上取得当时第一名的成绩;政务大模型达到和讯飞、百度等大模型的水平;法律大模型在lawbench上超过文心、GLM等模型

🤖 工单智能助手

项目背景:针对业务工单数据进行智能化处理,包含工单自动分拨、群体事件识别、重复事件识别、工单自动纠错、工单内容总结、工单问答助手等。
项目技术:python、docker、BGE-embedding、FlgEmbedding、中文文本纠错、T5、Qwen2.5、RAG

工单自动分拨:将用户提交的工单分为1300+类别,采用多模型召回计数构建正负样本,使用动态融合方法(embedding直接分类、历史数据推荐分类、最近工单推荐分类),根据类别频率排序,最终分拨top3准确率达到85%以上

事件识别系统:采用Qwen2.5模型使用llama-factory进行SFT得到实体识别模型,结合DPO模型结果融合进行实体抽取,根据实体聚合新闻并判断事件相关性,在PK中取得两项第一的成绩

工单文本纠错:采用T5作为纠错模型,收集整理开源CSC、CGEC数据并利用规则生成纠错数据,预训练后使用高质量数据微调,在ECSPell榜单取得第一成绩,CGEC与Sota持平

工单内容总结与问答:采用天书大模型结合COT进行工单内容总结;对文档进行解析、提取问答对和分块,转换为embedding存储,实现检索增强问答

量化LLM以加速推理

项目背景:根据芯片需求,对不同LLM及VLM进行量化,测试量化后的推理效率及模型精度。
项目技术:gptq、awq、smoothquant、quarot、qwen3、deepseek-r1、工作流、sglang、vllm

模型量化:

• 使用w4a8、w8a8、w4a16量化Qwen3系列模型,采用quarot-gptq方案在w8a8上基本无损

• 对于w4a8,结合quarot在线旋转方法;对于小模型,使用混合精度量化缩小与bf16模型的精度差距

• 对deepseek-r1使用w4a8量化结合quarot,基本无损;解决deepseek-r1以fp16推理时最后一层Moe层溢出问题:缩放scale或者将其转换为bf16进行运算。

优化与创新:

• 基于qwen2使用w8a8结合kv-cache per token per head量化,精度损失控制在1%以内

• 构建量化工作流,实现从量化、部署、评测的端到端流程,提高量化效率

• 量化qwen2.5-vl-7B全格式模型,修改vllm以支持同时对llm和vit部分的量化推理

🔍 结合LLM与CN-CLIP的语义搜索

项目背景:针对监控场景下的以文搜图任务,包括文搜人、文搜车等。
项目技术:openclip、transformers、cn-clip、llm2clip、vit、llama

• 基于cnclip使用openclip进行图文检索多机多卡训练,收集整理图文预训练数据并转换为webdataset

• 对垂域图片使用Qwen2.5-72B-VL进行标注,结合embedding去重

• 训练采用LIT形式,冻结视觉编码器,只训练文本部分;人工标注正负样本,使用consent-loss训练提升垂域能力

• 基于LLM2CLIP语言基座与cnlip视觉基座,冻结语言基座,只训练视觉及projector部分。batch内的负祥本解决第二阶段训练过拟合问题。最终上线平均精确率为86%

• 另外,参考cnclip的流程进行从头预训练,成功复现cnclip的效果

p

• 采用在线学习方法,用户标注少量数据即可提升标签效果;利用否定逻辑工作流,提升模型在否定词语上的泛化性

📰 智慧头条

项目背景:针对芯片及大模型相关新闻,构建内部头条资讯系统,为业务和科研人员提供行业前沿信息。
项目技术:postgres、Qwen3-Embedding、Qwen3-30B-A3B、bm25、个性化推荐、vllm

• 对爬取的新闻进行标准化处理:使用大模型分类过滤非科技类新闻、多新闻杂糅内容、标题文本不匹配内容

• 对新闻进行文本摘要、向量化处理、关键词提取,并存储至数据库

• 推荐系统:基于用户选择主题进行冷启动(联合bm25、关键词命中数、向量检索进行加权求和)

• 个性化推荐:收集用户收藏、点赞、浏览时长、搜索历史等行为数据,获取对应新闻向量进行平均计算。另外将用户点踩的新闻加入个性化推荐,正向分数减去负向分数

• 获得推荐结果后使用dbscan进行聚类,将同一主题的新闻聚成一组,避免重复推荐

p

• 构建前端可视化页面,存储每日推荐结果进行分析,优化推荐效果。最终top20准确率为100%,top30准确率为94%

• 构建端到端的自动化评估测试,判断推荐的新闻是否是用户感兴趣的新闻(对推荐新闻进行分类并和用户标签进行比对)