swift
Get Started
SWIFT安装
快速开始
Web-UI
Instruction
命令行参数
预训练与微调
人类对齐
推理和部署
Megatron-SWIFT训练
采样
评测
导出与推送
强化微调
GRPO
Agent支持
支持的模型和数据集
使用Tuners
常见问题整理
Customization
自定义模型
自定义数据集
插件化
Best Practices
GRPO完整实验流程
多模态GRPO完整实验流程
GRPO代码训练
Embedding训练
快速训练视觉语言(Vision-Language, VL)模型的最佳实践
NPU支持
更多最佳实践
swift
Swift DOCUMENTATION
查看页面源码
Swift DOCUMENTATION
Get Started
SWIFT安装
Wheel包安装
源代码安装
旧版本
镜像
支持的硬件
运行环境
Notebook环境
快速开始
安装
使用样例
了解更多
Web-UI
Instruction
命令行参数
基本参数
原子参数
集成参数
特定模型参数
其他环境变量
预训练与微调
环境准备
预训练
微调
Merge LoRA
推理(微调后模型)
部署(微调后模型)
人类对齐
数据集
GRPO
DPO
RM
PPO
KTO
CPO
ORPO
SimPO
推理和部署
推理
部署
Megatron-SWIFT训练
环境准备
快速入门案例
Benchmark
命令行参数
采样
能力介绍
环境准备
使用PRM和ORM进行结果过滤
自定义PRM或ORM
显存控制
实际例子
大模型蒸馏采样
评测
能力介绍
环境准备
评测
训练中评测
自定义评测集
问答题格式(QA)
导出与推送
Merge LoRA
量化
推送模型
强化微调
强化微调的概念
什么时候使用强化微调
SWIFT的实现
实验结果
未来计划
GRPO
集群支持
奖励函数
参数与运行脚本
自定义奖励模型
DAPO
Agent支持
数据集格式
tools格式
loss_scale的使用
训练
推理
部署
支持的模型和数据集
模型
数据集
使用Tuners
接口列表
常见问题整理
训练
推理
部署
评测
Customization
自定义模型
模型注册
自定义数据集
标准数据集格式
dataset_info.json
数据集注册
插件化
callback回调
定制化loss
定制化loss_scale
定制化metric
定制化optimizer
定制化agent template
定制化tuner
PRM
ORM
Best Practices
GRPO完整实验流程
任务与数据集定义
奖励函数定义:
GRPO训练实验记录
多模态GRPO完整实验流程
ClevrCount 任务
奖励函数定义:
Geometric QA任务
Multimodal Open R1 数据集实验
GRPO代码训练
奖励函数
训练脚本
Embedding训练
loss
数据集格式
脚手架
快速训练视觉语言(Vision-Language, VL)模型的最佳实践
模型修改
训练
推理/部署/评测
NPU支持
环境准备
微调
推理
部署
更多最佳实践
Indices and tables
索引
模块索引
搜索页面