swift
Get Started
SWIFT安装
快速开始
Web-UI
Instruction
命令行参数
预训练与微调
GRPO
GKD
人类对齐
推理和部署
采样
评测
导出与推送
ray的支持
强化微调
Agent支持
支持的模型和数据集
使用Tuners
常见问题整理
Megatron-SWIFT
快速开始
命令行参数
LoRA训练
多模态模型
Mcore Bridge
GRPO
GKD
Ascend NPU
Customization
架构介绍
自定义模型
自定义数据集
Best Practices
GRPO完整实验流程
多模态GRPO完整实验流程
GRPO代码训练
Qwen3最佳实践
Qwen3-VL最佳实践
Qwen3.5 最佳实践
注册多模态模型最佳实践
Embedding训练
Reranker训练
快速训练VL模型
NPU支持
Metax支持
更多最佳实践
swift
Swift DOCUMENTATION
查看页面源码
Swift DOCUMENTATION
Get Started
SWIFT安装
Wheel包安装
源代码安装
镜像
支持的硬件
运行环境
Notebook环境
快速开始
安装
使用样例
了解更多
Web-UI
Instruction
命令行参数
基本参数
原子参数
集成参数
特定模型参数
其他环境变量
预训练与微调
环境准备
预训练
微调
Merge LoRA
推理(微调后模型)
部署(微调后模型)
GRPO
Get Started
Developer Guide
Advanced Research
GKD
损失函数
散度度量函数
三种训练模式
参数设置
采样加速
On-Policy Distillation
人类对齐
数据集
GRPO
DPO
RM
PPO
KTO
CPO
ORPO
SimPO
推理和部署
推理
部署
采样
能力介绍
环境准备
使用PRM和ORM进行结果过滤
自定义PRM或ORM
显存控制
实际例子
大模型蒸馏采样
评测
能力介绍
环境准备
评测
训练中评测
自定义评测集
问答题格式(QA)
导出与推送
Merge LoRA
量化
推送模型
ray的支持
技术细节
参数设置
强化微调
强化微调的概念
什么时候使用强化微调
SWIFT的实现
实验结果
Agent支持
数据集格式
tools格式
loss_scale的使用
训练
推理
部署
支持的模型和数据集
模型
数据集
使用Tuners
接口列表
常见问题整理
训练
推理
导出
部署
评测
Megatron-SWIFT
快速开始
环境准备
快速入门案例
训练技巧
Benchmark
Megatron-SWIFT微信群
命令行参数
Megatron参数
训练参数
RLHF参数
导出参数
LoRA训练
传统方式
Mcore-Bridge【推荐】
多模态模型
Dense模型
Moe模型
Mcore Bridge
无缝训练
LoRA导出
megatron
export
与 转换精度测试
使用代码
GRPO
参数对比
GKD
功能支持
参数说明
三种训练模式
参考
Ascend NPU
NPU 性能数据采集
NPU 精度数据采集
Customization
架构介绍
Agent Template
Callbacks
Loss
Loss Scale
Metrics
Optimizers
Tuner Plugin
ORM
PRM
其他目录结构介绍
自定义模型
模型注册
自定义数据集
标准数据集格式
dataset_info.json
数据集注册
Best Practices
GRPO完整实验流程
任务与数据集定义
奖励函数定义:
GRPO训练实验记录
多模态GRPO完整实验流程
ClevrCount 任务
奖励函数定义:
Geometric QA任务
Multimodal Open R1 数据集实验
GRPO代码训练
奖励函数
训练脚本
Qwen3最佳实践
推理
训练
监督微调 (SFT)
强化学习 (RL)
Megatron-SWIFT
Qwen3-VL最佳实践
环境准备
推理
训练
Qwen3.5 最佳实践
环境设置
推理
微调
强化学习(RL)
注册多模态模型最佳实践
环境准备
注册模型
注册模板
推理对齐
开始训练
Embedding训练
loss
数据集格式
训练
推理
高级功能
Reranker训练
实现方式
损失函数类型
数据集格式
脚手架
高级功能
快速训练VL模型
模型修改
训练
推理/部署/评测
NPU支持
安装
环境准备
微调
推理
部署
支持现状
NPU微信群
Metax支持
1. 在 Metax 平台上使用 Swift
2. 环境检查
3. 运行示例
更多最佳实践
Indices and tables
索引
模块索引
搜索页面