swift
Get Started
SWIFT安装
快速开始
Web-UI
Instruction
命令行参数
预训练与微调
GRPO
Get Started
Developer Guide
多轮训练
多任务训练
奖励函数
奖励模型
GYM环境训练
Advanced Research
人类对齐
推理和部署
采样
评测
导出与推送
强化微调
Agent支持
支持的模型和数据集
使用Tuners
常见问题整理
Megatron-SWIFT
快速开始
命令行参数
LoRA训练
多模态模型
Customization
自定义模型
自定义数据集
插件化
Best Practices
GRPO完整实验流程
多模态GRPO完整实验流程
GRPO代码训练
Qwen3最佳实践
Qwen3-VL最佳实践
注册多模态模型最佳实践
Embedding训练
Reranker训练
快速训练VL模型
NPU支持
更多最佳实践
swift
GRPO
Developer Guide
查看页面源码
Developer Guide
多轮训练
多任务训练
奖励函数
奖励模型
GYM环境训练