swift
Get Started
SWIFT安装
快速开始
Web-UI
Instruction
命令行参数
预训练与微调
GRPO
GKD
人类对齐
推理和部署
采样
评测
导出与推送
ray的支持
强化微调
Agent支持
支持的模型和数据集
使用Tuners
常见问题整理
Megatron-SWIFT
快速开始
命令行参数
LoRA训练
多模态模型
Mcore-Bridge
GRPO
GKD
Ascend NPU
自定义Megatron模型
Customization
架构介绍
自定义模型
自定义数据集
Best Practices
GRPO完整实验流程
多模态GRPO完整实验流程
GRPO代码训练
Qwen3最佳实践
Qwen3-VL最佳实践
Qwen3.5 最佳实践
DeepSeek-V4 训练支持
注册多模态模型最佳实践
Embedding训练
Reranker训练
快速训练VL模型
NPU支持
Metax支持
AMD GPU 支持
更多最佳实践
swift
Swift DOCUMENTATION
查看页面源码
Swift DOCUMENTATION
Get Started
SWIFT安装
Wheel包安装
源代码安装
镜像
支持的硬件
运行环境
Notebook环境
快速开始
安装
使用样例
了解更多
Web-UI
Instruction
命令行参数
基本参数
原子参数
集成参数
特定模型参数
其他环境变量
预训练与微调
环境准备
预训练
微调
Merge LoRA
推理(微调后模型)
部署(微调后模型)
GRPO
Get Started
Developer Guide
Advanced Research
GKD
损失函数
散度度量函数
三种训练模式
参数设置
采样加速
On-Policy Distillation
OPSD(On-Policy Self-Distillation)
人类对齐
数据集
GRPO
DPO
RM
PPO
KTO
CPO
ORPO
SimPO
推理和部署
推理
部署
采样
能力介绍
环境准备
使用PRM和ORM进行结果过滤
自定义PRM或ORM
显存控制
实际例子
大模型蒸馏采样
评测
能力介绍
环境准备
评测
训练中评测
自定义评测集
问答题格式(QA)
导出与推送
Merge LoRA
量化
推送模型
ray的支持
技术细节
参数设置
强化微调
强化微调的概念
什么时候使用强化微调
SWIFT的实现
实验结果
Agent支持
数据集格式
tools格式
loss_scale的使用
训练
推理
部署
支持的模型和数据集
模型
数据集
使用Tuners
接口列表
常见问题整理
训练
推理
导出
部署
评测
Megatron-SWIFT
快速开始
环境准备
快速入门案例
训练技巧
Benchmark
Megatron-SWIFT微信群
命令行参数
Megatron参数
训练参数
RLHF参数
导出参数
LoRA训练
传统方式
Mcore-Bridge【推荐】
多模态模型
Dense模型
Moe模型
Mcore-Bridge
无缝训练
megatron
export
与 转换精度测试
使用代码
GRPO
参数对比
GKD
功能支持
参数说明
三种训练模式
参考
Ascend NPU
NPU 性能数据采集
NPU 精度数据采集
自定义Megatron模型
下载模型
注册模型
测试准确性
提交PR
Customization
架构介绍
Agent Template
Callbacks
Loss
Loss Scale
Metrics
Optimizers
Tuner Plugin
ORM
PRM
其他目录结构介绍
自定义模型
模型注册
自定义数据集
标准数据集格式
dataset_info.json
数据集注册
Best Practices
GRPO完整实验流程
任务与数据集定义
奖励函数定义:
GRPO训练实验记录
多模态GRPO完整实验流程
ClevrCount 任务
奖励函数定义:
Geometric QA任务
Multimodal Open R1 数据集实验
GRPO代码训练
奖励函数
训练脚本
Qwen3最佳实践
推理
训练
监督微调 (SFT)
强化学习 (RL)
Megatron-SWIFT
Qwen3-VL最佳实践
环境准备
推理
训练
Qwen3.5 最佳实践
环境设置
推理
微调
强化学习(RL)
DeepSeek-V4 训练支持
精度对齐
LoRA训练
注册多模态模型最佳实践
环境准备
注册模型
注册模板
推理对齐
开始训练
提交PR
Embedding训练
loss
数据集格式
训练
推理
高级功能
Reranker训练
实现方式
损失函数类型
数据集格式
脚手架
高级功能
快速训练VL模型
模型修改
训练
推理/部署/评测
NPU支持
支持范围速览
选择你的使用路线
环境准备
快速跑通:ModelScope 模型 + 数据集
训练
模型保存、Merge LoRA 和断点续训
推理
部署
评测
发布
FAQ
NPU微信群
Metax支持
1. 在 Metax 平台上使用 Swift
2. 环境检查
3. 运行示例
AMD GPU 支持
1. 环境配置
2. 运行示例
已知问题
更多最佳实践
Indices and tables
索引
模块索引
搜索页面