AI大模型工程师_LLM专家简历模板免费下载_AI_大模型_LLM简历模板_在线制作工具
(+86)155-0799-7194 | codecv@163.com | 微信号:codecvresume
教育背景
2017.09 - 2021.07
清华大学 985 双一流
人工智能专业 - 硕士
- GPA:3.91/4.0 国家奖学金获得者,发表高水平论文3篇(ICLR, ACL, NeurIPS)
- 研究方向: 大型语言模型、多模态模型、强化学习、模型压缩与量化
工作经历
2021.08 - 至今
智谱AI
大模型研发部
高级AI研究员
- 背景: 公司需要开发具有国际竞争力的大型语言模型,面临技术挑战和资源限制
- 职责: 负责大型语言模型架构设计、训练优化、能力评估和应用落地
- 难点: 在有限的计算资源下提升模型性能,解决中文大模型的知识幻觉问题
- 成果: 主导开发ChatGLM-6B系列模型,参与GLM-130B训练,优化Transformer架构减少30%计算开销;设计新型上下文学习方法,提升模型在少样本场景下的表现,零样本任务准确率提升18%
2020.03 - 2021.07
微软亚洲研究院
NLP组
研究实习生
- 背景: 探索预训练语言模型在特定领域的应用及优化方法
- 职责: 研究大模型针对垂直领域的微调技术,开发高效参数高效微调方法
- 难点: 如何用少量标注数据和计算资源实现模型在特定领域的高性能
- 成果: 提出一种新的参数高效微调方法LoRA+,相比标准微调减少95%可训练参数的同时保持模型性能;该方法被应用于多个内部项目,并发表顶会论文
项目经验
2022.10 - 2023.05
ChatGLM系列模型开发
技术负责人
- 背景: 公司需要开发开源且高性能的中文大模型,以扩大技术影响力并支持下游应用
- 职责: 负责模型架构设计、训练策略制定、数据处理、评测和优化
- 技术难点: 平衡模型规模与性能,解决中文理解与生成问题,优化推理速度
- 成果: 成功发布ChatGLM-6B系列模型,GitHub获2.5万星;设计混合专家架构,相比同等规模模型推理速度提升60%;通过多轮人类反馈优化(RLHF),大幅提升回答质量和安全性
2022.03 - 2022.09
企业级知识库大模型
核心开发者
- 背景: 企业客户需要能够理解专业领域知识并回答专业问题的AI助手
- 职责: 设计基于大模型的知识增强系统,解决知识检索、融合与推理问题
- 技术难点: 处理专业领域长文档理解,提升模型在专业知识上的推理能力
- 成果: 开发了支持100万级知识条目的检索增强生成系统;设计了两阶段检索-生成架构,将专业问题准确率从65%提升至92%;系统已落地金融、法律、医疗等5个行业
2021.10 - 2022.02
大模型算法优化与部署
技术骨干
- 背景: 大模型推理成本高,难以在资源受限设备上部署
- 职责: 研究大模型压缩技术,优化推理性能,实现端侧部署
- 技术难点: 在保证模型性能的前提下实现最大化压缩,平衡速度与质量
- 成果: 提出混合精度量化方法,模型大小减少75%;开发注意力机制优化算法,推理速度提升3倍;实现13B参数模型在单GPU上实时推理,在移动端设备上成功部署2B参数模型
技术专长
模型架构设计
训练优化
模型压缩部署
- 精通Transformer架构及其变体,熟悉MoE、Flash Attention等前沿技术
- 掌握大模型预训练、指令微调、RLHF等训练方法,能优化训练流程和数据处理
- 擅长模型量化、知识蒸馏、参数高效微调等技术,能将大模型高效部署到各类场景
专业技能
- 编程语言:Python(精通)、C++(熟练)、CUDA编程(熟悉)
- 深度学习框架:PyTorch(精通)、TensorFlow(熟练)、JAX(熟悉)
- 大模型技术:精通Transformer架构设计、注意力机制优化、混合专家模型、RLHF
- 模型优化:熟悉量化技术、知识蒸馏、模型剪枝、并行训练策略
- 论文成果:发表AI顶会论文5篇,被引用500+次,主导开源项目2个,GitHub星标3万+

客服微信
投递进度管理