swift

Get Started

  • SWIFT安装
  • 快速开始
  • Web-UI

Instruction

  • 命令行参数
  • 预训练与微调
  • GRPO
    • Get Started
    • Developer Guide
      • Loss Types
      • 多轮训练
      • 多任务训练
      • 奖励函数
      • 奖励模型
      • GYM环境训练
    • Advanced Research
  • GKD
  • 人类对齐
  • 推理和部署
  • 采样
  • 评测
  • 导出与推送
  • ray的支持
  • 强化微调
  • Agent支持
  • 支持的模型和数据集
  • 使用Tuners
  • 常见问题整理

Megatron-SWIFT

  • 快速开始
  • 命令行参数
  • LoRA训练
  • 多模态模型
  • Mcore Bridge
  • GRPO

Customization

  • 自定义模型
  • 自定义数据集
  • 插件化

Best Practices

  • GRPO完整实验流程
  • 多模态GRPO完整实验流程
  • GRPO代码训练
  • Qwen3最佳实践
  • Qwen3-VL最佳实践
  • 注册多模态模型最佳实践
  • Embedding训练
  • Reranker训练
  • 快速训练VL模型
  • NPU支持
  • 更多最佳实践
swift
  • GRPO
  • Developer Guide
  • 查看页面源码

Developer Guide

  • Loss Types
  • 多轮训练
  • 多任务训练
  • 奖励函数
  • 奖励模型
  • GYM环境训练
上一页 下一页

© 版权所有 2022-2025, Alibaba ModelScope。

利用 Sphinx 构建,使用的 主题 由 Read the Docs 开发.