NVIDIA NeMo-RL 利用 GRPO 進行高級強化學習

2025-07-09 22:07:29

摘要生成中

張彼得

2025年7月10日 06:07

NVIDIA推出NeMo-RL，一個用於強化學習的開源庫，支持與GRPO的可擴展訓練，並與Hugging Face模型集成。

NVIDIA 已推出 NeMo-RL，這是一個前沿的開源庫，旨在增強強化學習 (RL) 的能力，具體內容可以參考 NVIDIA 的官方博客。該庫支持可擴展的模型訓練，從單 GPU 原型到大規模的千 GPU 部署，並與 Hugging Face 等流行框架無縫集成。

NeMo-RL的架構與特點

NeMo-RL 是更廣泛的 NVIDIA NeMo 框架的一部分，以其多功能性和高性能能力而聞名。該庫包括與 Hugging Face 模型的原生集成，優化的訓練和推理過程。它支持 DPO 和 GRPO 等流行的強化學習算法，並採用基於 Ray 的編排以提高效率。

NeMo-RL的架構設計時考慮了靈活性。它支持各種訓練和回滾後端，確保高層算法實現與後端細節保持無關。這種設計允許模型的無縫擴展，而無需修改算法代碼，使其非常適合小規模和大規模部署。

這篇博客文章探討了如何應用NeMo-RL來重復使用Group Relative Policy Optimization (GRPO)算法的DeepScaleR-1.5B食譜。這涉及到訓練高性能的推理模型，例如Qwen-1.5B，以便在AIME24學術數學挑戰中與OpenAI的O1基準進行競爭。

訓練過程分爲三個步驟，每個步驟都增加使用的最大序列長度：從8K開始，然後是16K，最後是24K。這種逐步增加有助於管理推出序列長度的分布，優化訓練過程。

訓練設置涉及複製 NeMo-RL 倉庫並安裝必要的軟件包。訓練分階段進行，模型持續評估以確保達到性能基準。結果表明，NeMo-RL 在僅 400 步內達到了 0.65 的訓練獎勵。

在AIME24基準測試中的評估顯示，訓練模型超越了OpenAI O1，突顯了NeMo-RL與GRPO算法結合時的有效性。

NeMo-RL 可供開源使用，提供詳細的文檔和示例腳本，存放在其 GitHub 存儲庫中。這個資源非常適合那些希望使用可擴展和高效的方法進行強化學習實驗的人。

該庫與Hugging Face的集成及其模塊化設計使其成爲研究人員和開發者在項目中利用先進強化學習技術的強大工具。

圖片來源：Shutterstock

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言