📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
NVIDIA NeMo-RL 利用 GRPO 進行高級強化學習
張彼得
2025年7月10日 06:07
NVIDIA推出NeMo-RL,一個用於強化學習的開源庫,支持與GRPO的可擴展訓練,並與Hugging Face模型集成。
NVIDIA 已推出 NeMo-RL,這是一個前沿的開源庫,旨在增強強化學習 (RL) 的能力,具體內容可以參考 NVIDIA 的官方博客。該庫支持可擴展的模型訓練,從單 GPU 原型到大規模的千 GPU 部署,並與 Hugging Face 等流行框架無縫集成。
NeMo-RL的架構與特點
NeMo-RL 是更廣泛的 NVIDIA NeMo 框架的一部分,以其多功能性和高性能能力而聞名。該庫包括與 Hugging Face 模型的原生集成,優化的訓練和推理過程。它支持 DPO 和 GRPO 等流行的強化學習算法,並採用基於 Ray 的編排以提高效率。
NeMo-RL的架構設計時考慮了靈活性。它支持各種訓練和回滾後端,確保高層算法實現與後端細節保持無關。這種設計允許模型的無縫擴展,而無需修改算法代碼,使其非常適合小規模和大規模部署。
使用 GRPO 實現 DeepScaleR
這篇博客文章探討了如何應用NeMo-RL來重復使用Group Relative Policy Optimization (GRPO)算法的DeepScaleR-1.5B食譜。這涉及到訓練高性能的推理模型,例如Qwen-1.5B,以便在AIME24學術數學挑戰中與OpenAI的O1基準進行競爭。
訓練過程分爲三個步驟,每個步驟都增加使用的最大序列長度:從8K開始,然後是16K,最後是24K。這種逐步增加有助於管理推出序列長度的分布,優化訓練過程。
訓練過程與評估
訓練設置涉及複製 NeMo-RL 倉庫並安裝必要的軟件包。訓練分階段進行,模型持續評估以確保達到性能基準。結果表明,NeMo-RL 在僅 400 步內達到了 0.65 的訓練獎勵。
在AIME24基準測試中的評估顯示,訓練模型超越了OpenAI O1,突顯了NeMo-RL與GRPO算法結合時的有效性。
開始使用 NeMo-RL
NeMo-RL 可供開源使用,提供詳細的文檔和示例腳本,存放在其 GitHub 存儲庫中。這個資源非常適合那些希望使用可擴展和高效的方法進行強化學習實驗的人。
該庫與Hugging Face的集成及其模塊化設計使其成爲研究人員和開發者在項目中利用先進強化學習技術的強大工具。
圖片來源:Shutterstock