大语言模型的快速发展对训练和推理技术带来了更高的要求,基于飞桨框架3.0版本打造的PaddleNLP大语言模型套件,通过极致的全流程优化,为开发者提供从组网开发、预训练、精调对齐、模型压缩以及推理部署的一站式解决方案。
产品亮点
1. 大模型自动并行,千亿模型训推全流程开箱即用
基于飞桨框架3.0版本,通过统一的分布式表示结合自动并行技术,大幅简化了组网开发的复杂性,分布式核心代码量减少50%以上,全分布式策略支持的组网支持Llama 3.1 405B模型开箱即用,同时预置了80多个主流模型的训练-压缩-推理的全流程方案,以满足不同场景需求。
2. 大模型训推一体,提供产业级高性能精调与对齐方案
基于飞桨框架独有的FlashMask高性能变长注意力掩码计算机制,结合Zero Padding零填充数据流优化技术,可最大程度减少无效数据填充带来计算资源浪费,显著提升精调和对齐性能。以Llama 3.1 8B模型为例,相比LLaMA-Factory方案,性能提升了1.2倍,单机即可完成128K长文的SFT/DPO。借助飞桨训推一体特性,提供产业级的RLHF方案,PPO采样可复用推理加速算子,训练吞吐提升达2.1倍。
3. 大模型多硬件适配,30余接口低成本适配实现软硬协同优化
基于飞桨插件式松耦合统一硬件适配方案(CustomDevice),仅需适配30余个接口,即可实现大模型的基础适配,低成本完成训练-压缩-推理全流程;PaddleNLP目前一站式支持英伟达 GPU、昆仑芯 XPU、昇腾NPU、燧原 GCU 和海光 DCU 等多款芯片的大模型训练和推理,依托框架多种算子接入模式和自动并行调优等技术,便捷实现框架与芯片间软硬协同的性能优化。
欢迎开发者前往开源项目主页直接体验:
亮点一:大模型自动并行,千亿级模型训推全流程开箱即用1. 自动并行降低开发成本,80+模型开箱即用
本次PaddleNLP 3.0升级总计涵盖了80+业界主流的开源大语言模型,参数量覆盖从0.5B到405B不等,能够灵活满足各种场景下的用户需求。借助飞桨3.0版本框架的最新特性,通过统一的分布式表示和自动并行技术,大幅简化了组网开发的复杂性。分布式核心代码量减少50%以上,全分布式策略支持的组网使得Llama 3.1 405B的SFT与PEFT功能开箱即用。
动静统一、自动并行
2. 训压推全流程贯通,模型秒级保存与稳定恢复
在PaddleNLP本次升级中重点强化大语言模型训练-压缩-推理的全流程开发能力,基于飞桨框架3.0版本全新设计的一站式开发体验,大幅降低学习和使用成本。
分布式训练:基于Fleet API实现了全并行策略支持的高性能组网,覆盖预训练、精调(SFT/PEFT)和对齐(RLHF/DPO)三个环节的主流算法,相比HuggingFace Transformers仅支持数据并行的组网实现,飞桨的组网原生支持张量并行和流水线并行,在低资源精调和长文训练场景中,具备更高的性能上限和可扩展性;
模型压缩:基于PaddleSlim提供的多种大语言模型Post Training Quantization技术,提供WAC(权重/激活/缓存)灵活可配的量化能力,与Paddle Inference深度联动,保障压缩后的模型均能利用高性能低比特算子进行推理。
推理部署:基于FastDeploy全场景部署工具,提供了面向服务器场景的高性能推理服务,支持动态插入、流式输出、多硬件部署等功能。
业界方案在不同并行策略和不同结点数量下模型保存的Checkpoint格式不统一,模型量化和推理部署使用时需引入复杂切分和合并过程,保存和恢复时间长。针对这一系列问题,PaddleNLP设计了Unified Checkpoint大模型存储方案,突破了以下三个技术瓶颈:
统一模型存储协议,在模型压缩、动转静、推理部署等环节中无需引入额外的参数合并流程。
内置参数自适应切分与合并功能,恢复训练时并行策略或者结点数量变化时可自动完成切分与合并,精准还原数据流状态。
支持异步保存与快速恢复,结合存储参数多进程均匀读写分配,实现秒级保存与比特稳定快速恢复。
Unified Checkpoint模型参数存储示例图
亮点二:大模型训推一体,提供高性能产业级的精调与对齐解决方案1. 精调对齐性能极致优化,支持128K长上下文训练
在精调和对齐训练中为业界普遍采用定长Padding策略解决数据长度不一的问题,该做法随着数据集长度分布差异增大,无效的Padding计算也会同步增加,继而导致训练时间增长。针对这一问题,飞桨框架独有FlashMask高性能变长注意力掩码计算结合PaddleNLP中Zero Padding零填充数据流优化技术,通过分组贪心的数据填充策略,可最大程度消除无效Padding的比例。
同时,ZeroPadding+FlashMask稀疏计算的特性也大幅减少了显存开销,使精调训练代码无缝从8K扩展到128K的长文训练。
综合上述优化,相比LLaMA-Factory,PaddleNLP在SFT环节性能提升120%,DPO环节性能提升130%~240%,大幅降低了大模型精调和对齐环节所需的计算成本。
SFT/DPO训练有效吞吐性能对比
2. 训推一体框架特性加速RLHF训练效率
人类反馈强化学习(RLHF)通过不断接收人类对于模型行为的直接评价或示例指导,促使模型效果逐渐逼近人类预期的行为模式。然而,多样化的样本导致待对齐模型出现奖励信号互斥和策略更新程度难以平衡的现象,进而导致模型训练时波动幅度大且收敛速度慢,多模型生成和训练容易占用显存大,训练速度慢。针对这一系列问题,PaddleNLP基于飞桨训推一体框架特性和多多种策略结合的来解决:
训推一体:依托飞桨框架训推一体特性,在Policy模型采样生成复用推理高性能融合算子,使RLHF训练加速 2.1 倍。
显存优化:基于飞桨原生的张量并行/流水线并行能力,结合Offload训练模式控制显存占用,单机即可完成训练百亿级别PPO训练。
策略优化:支持优势函数平滑、EMA参数策略,提升模型训练稳定性。
综合上述优化,以LLaMA-7B模型为例,PaddleNLP的PPO训练性能达Beaver框架的3.2倍。
RLHF训练策略&RLHF PPO训练速度对比
亮点三:大模型多硬件适配,30余接口低成本适配实现软硬协同优化
基于飞桨框架3.0发布的大模型多硬件适配技术,通过插件式软硬件松耦合的分层设计,可以低成本完成芯片的大模型基础适配和软硬协同优化,其具备以下特点:
硬件适配简捷高效:不同硬件仅需适配30余接口,即可全面支持大模型训压推。
基础算子体系完备:通过基础算子体系,减少硬件适配所需开发的算子数量。
大模型性能极致优化:支持算子融合、显存复用等方式实现高效算子流水编排,极致显存复用优化。
硬件编译接入自动优化:支持通过神经网络编译器代码后端 CodeGen 的方式接入,实现多硬件后端的算子生成与性能优化。
PaddleNLP目前一站式支持英伟达 GPU、昆仑芯 XPU、昇腾 NPU、燧原 GCU 和海光 DCU 等多款芯片的大模型训练和推理,依托框架多种算子接入和适配模式,以及自动并行调优等技术,便捷实现框架与芯片软硬协同的性能优化。
飞桨大模型多硬件适配
当前PaddleNLP 3.0在支持英特尔CPU和英伟达GPU的硬件基础上,针对Llama类模型结构已适配了昆仑芯XPU、昇腾NPU、海光DCU以及燧原GCU等国产硬件的训练和推理,只需要一行代码即可轻松切换硬件,欢迎与生态伙伴一起共建更多开源大模型的多硬件支持!
精彩课程预告
为了帮助您迅速且深入地了解PaddleNLP 3.0,并熟练掌握实际操作技巧,百度高级研发工程师将在8月15日(周四)19:00,为您详细解读从组网开发、预训练、精调对齐、模型压缩以及推理部署的一站式解决方案。
人工智能技术网 倡导尊重与保护知识产权。如发现本站文章存在版权等问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至1851688011@qq.com我们将及时沟通与处理。!:首页 > 人工智能产业 > AI大模型 » PaddleNLP 3.0重磅发布:开箱即用的产业级大语言模型开发利器