swift
Get Started
SWIFT安装
快速开始
Web-UI
Instruction
命令行参数
预训练与微调
GRPO
人类对齐
推理和部署
采样
评测
导出与推送
强化微调
Agent支持
支持的模型和数据集
使用Tuners
常见问题整理
Megatron-SWIFT
快速开始
命令行参数
LoRA训练
多模态模型
Customization
自定义模型
自定义数据集
插件化
Best Practices
GRPO完整实验流程
多模态GRPO完整实验流程
GRPO代码训练
Qwen3最佳实践
Qwen3-VL最佳实践
注册多模态模型最佳实践
Embedding训练
Reranker训练
快速训练VL模型
NPU支持
更多最佳实践
swift
Swift DOCUMENTATION
查看页面源码
Swift DOCUMENTATION
Get Started
SWIFT安装
Wheel包安装
源代码安装
旧版本
镜像
支持的硬件
运行环境
Notebook环境
快速开始
安装
使用样例
了解更多
Web-UI
Instruction
命令行参数
基本参数
原子参数
集成参数
特定模型参数
其他环境变量
预训练与微调
环境准备
预训练
微调
Merge LoRA
推理(微调后模型)
部署(微调后模型)
GRPO
Get Started
Developer Guide
Advanced Research
人类对齐
数据集
GRPO
DPO
RM
PPO
KTO
CPO
ORPO
SimPO
推理和部署
推理
部署
采样
能力介绍
环境准备
使用PRM和ORM进行结果过滤
自定义PRM或ORM
显存控制
实际例子
大模型蒸馏采样
评测
能力介绍
环境准备
评测
训练中评测
自定义评测集
问答题格式(QA)
导出与推送
Merge LoRA
量化
推送模型
强化微调
强化微调的概念
什么时候使用强化微调
SWIFT的实现
实验结果
未来计划
Agent支持
数据集格式
tools格式
loss_scale的使用
训练
推理
部署
支持的模型和数据集
模型
数据集
使用Tuners
接口列表
常见问题整理
训练
推理
部署
评测
Megatron-SWIFT
快速开始
环境准备
快速入门案例
训练技巧
Benchmark
命令行参数
Megatron参数
训练参数
RLHF参数
LoRA训练
HF转换Mcore
LoRA训练
MCore转换HF
Merge-LoRA
多模态模型
Dense模型
Moe模型
Customization
自定义模型
模型注册
自定义数据集
标准数据集格式
dataset_info.json
数据集注册
插件化
callback回调
定制化loss
定制化loss_scale
定制化metric
定制化optimizer
定制化agent template
定制化tuner
PRM
ORM
Best Practices
GRPO完整实验流程
任务与数据集定义
奖励函数定义:
GRPO训练实验记录
多模态GRPO完整实验流程
ClevrCount 任务
奖励函数定义:
Geometric QA任务
Multimodal Open R1 数据集实验
GRPO代码训练
奖励函数
训练脚本
Qwen3最佳实践
推理
训练
监督微调 (SFT)
强化学习 (RL)
Megatron-SWIFT
Qwen3-VL最佳实践
环境准备
推理
训练
注册多模态模型最佳实践
环境准备
注册模型
注册模板
推理对齐
开始训练
Embedding训练
loss
数据集格式
脚手架
推理
高级功能
Reranker训练
实现方式
损失函数类型
数据集格式
脚手架
高级功能
快速训练VL模型
模型修改
训练
推理/部署/评测
NPU支持
环境准备
微调
推理
部署
更多最佳实践
Indices and tables
索引
模块索引
搜索页面