大模型算法工程师
武汉理工大学
武汉理工大学
深圳云天励飞技术股份有限公司
深圳赋乐科技集团有限公司
中兴-南京中新赛克科技有限责任公司
数据阶段:
• 预训练数据过滤:训练fasttext质量过滤模型以及基于n-gram的模型过滤掉质量较低的预训练语料
• 微调数据处理:收集整理开源SFT语料,进行ppl过滤、规则过滤、去重等操作;针对垂域数据(公文写作、扩改润续缩等),蒸馏ChatGPT数据并从书籍中抽取高质量语料
模型训练:
• 采用megatron-lm作为基本训练框架,进行多机多卡训练
• 第一阶段使用通用SFT数据预训练,第二阶段采用通用数据和垂域数据7:3混合训练得到垂域大模型
• 对于多轮对话数据,只训练answer部分以加速训练
模型部署与评测:
• 使用TGI作为部署框架,与华为合作部署到910B服务器
• 在ceval、cmmlu等外部榜单及内部Llm-bench上进行评测,垂域任务构建测试集进行人工评测
项目成果:天书大模型在ceval、cmmlu上取得当时第一名的成绩;政务大模型达到和讯飞、百度等大模型的水平;法律大模型在lawbench上超过文心、GLM等模型
工单自动分拨:将用户提交的工单分为1300+类别,采用多模型召回计数构建正负样本,使用动态融合方法(embedding直接分类、历史数据推荐分类、最近工单推荐分类),根据类别频率排序,最终分拨top3准确率达到85%以上
事件识别系统:采用Qwen2.5模型使用llama-factory进行SFT得到实体识别模型,结合DPO模型结果融合进行实体抽取,根据实体聚合新闻并判断事件相关性,在PK中取得两项第一的成绩
工单文本纠错:采用T5作为纠错模型,收集整理开源CSC、CGEC数据并利用规则生成纠错数据,预训练后使用高质量数据微调,在ECSPell榜单取得第一成绩,CGEC与Sota持平
工单内容总结与问答:采用天书大模型结合COT进行工单内容总结;对文档进行解析、提取问答对和分块,转换为embedding存储,实现检索增强问答
模型量化:
• 使用w4a8、w8a8、w4a16量化Qwen3系列模型,采用quarot-gptq方案在w8a8上基本无损
• 对于w4a8,结合quarot在线旋转方法;对于小模型,使用混合精度量化缩小与bf16模型的精度差距
• 对deepseek-r1使用w4a8量化结合quarot,基本无损;解决deepseek-r1以fp16推理时最后一层Moe层溢出问题:缩放scale或者将其转换为bf16进行运算。
优化与创新:
• 基于qwen2使用w8a8结合kv-cache per token per head量化,精度损失控制在1%以内
• 构建量化工作流,实现从量化、部署、评测的端到端流程,提高量化效率
• 量化qwen2.5-vl-7B全格式模型,修改vllm以支持同时对llm和vit部分的量化推理
• 基于cnclip使用openclip进行图文检索多机多卡训练,收集整理图文预训练数据并转换为webdataset
• 对垂域图片使用Qwen2.5-72B-VL进行标注,结合embedding去重
• 训练采用LIT形式,冻结视觉编码器,只训练文本部分;人工标注正负样本,使用consent-loss训练提升垂域能力
• 基于LLM2CLIP语言基座与cnlip视觉基座,冻结语言基座,只训练视觉及projector部分。batch内的负祥本解决第二阶段训练过拟合问题。最终上线平均精确率为86%
• 另外,参考cnclip的流程进行从头预训练,成功复现cnclip的效果
p• 采用在线学习方法,用户标注少量数据即可提升标签效果;利用否定逻辑工作流,提升模型在否定词语上的泛化性
• 对爬取的新闻进行标准化处理:使用大模型分类过滤非科技类新闻、多新闻杂糅内容、标题文本不匹配内容
• 对新闻进行文本摘要、向量化处理、关键词提取,并存储至数据库
• 推荐系统:基于用户选择主题进行冷启动(联合bm25、关键词命中数、向量检索进行加权求和)
• 个性化推荐:收集用户收藏、点赞、浏览时长、搜索历史等行为数据,获取对应新闻向量进行平均计算。另外将用户点踩的新闻加入个性化推荐,正向分数减去负向分数
• 获得推荐结果后使用dbscan进行聚类,将同一主题的新闻聚成一组,避免重复推荐
p• 构建前端可视化页面,存储每日推荐结果进行分析,优化推荐效果。最终top20准确率为100%,top30准确率为94%
• 构建端到端的自动化评估测试,判断推荐的新闻是否是用户感兴趣的新闻(对推荐新闻进行分类并和用户标签进行比对)