Rlvr - Search Videos

RLVR: Reinforcement Learning with Verifiable Rewards

RLVR: Reinforcement Learning with Verifiable Rewards

1K views8 months ago

YouTubeAI Makerspace

Agent RLVR (Reinforcement Learning from Verifiable Rewards)

Agent RLVR (Reinforcement Learning from Verifiable Rewards)

438 views7 months ago

YouTubeVivek Haldar

RLVR Explained: The $6M AI Trick That Made DeepSeek Famous

RLVR Explained: The $6M AI Trick That Made DeepSeek Famous

37 views1 month ago

YouTubeAI Mind Blown

Unsloth RL Training. Nvidia NeMO RL using GRPO. Reinforcement Learning from Verifiable Rewards RLVR

Unsloth RL Training. Nvidia NeMO RL using GRPO. Reinforcement L…

275 views1 month ago

YouTubeByte Goose AI.

LaSeR: Last-Token Self-Rewarding for LLM RL

LaSeR: Last-Token Self-Rewarding for LLM RL

34 views6 months ago

YouTubeAI Research Roundup

RLFR: Flow Rewards for Better LLM Reasoning

RLFR: Flow Rewards for Better LLM Reasoning

30 views6 months ago

YouTubeAI Research Roundup

Simplest RL algorithm that matches GRPO in RLVR explained

Simplest RL algorithm that matches GRPO in RLVR explained

MSNDeep Learning with Yacine

CBRL: Enhancing LLM Exploration in RLVR

14 views1 month ago

YouTubeAI Research Roundup

Composition-RL: Compose Your Verifiable Prompts for Reinforcem…

13 views2 months ago

YouTubeAI Research Roundup

How to Fine-tune LLMs with RLVR (OpenAI’s RFT API) | Shaw Talebi

14.7K views1 month ago

Reinforcement Learning with Verifiable Rewards (RLVR)

1 views2 months ago

YouTubeJames Buckett

Reinforcement Learning with Verifiable Rewards | Why it exists…

2 views2 weeks ago

YouTubeManmeet Patel

Self-Distilled RLVR: Stable LLM Training Method

62 views1 month ago

YouTubeAI Research Roundup

Day 39/42: What Is RLVR? Yesterday, we used opinions. Tod…

364 views3 months ago

Google Just Achieved True Intelligence With New AI

55.2K views6 months ago

YouTubeAI Revolution

[AI播客]RLHF到RLVR：强化学习的范式演进与实践，突破探索从人类反 …

377 views7 months ago

bilibili烟岚九境

What are RLVR environments for LLMs? | Policy, rollouts & rubrics …

MSNDeep Learning with Yacine

RLAIF explained simply

1.1K views3 months ago

YouTubeWhat's AI by Louis-François Bouchard

Experimenting with Reinforcement Learning with Verifiable Rewards (…

13.1K viewsApr 8, 2025

YouTubeNathan Lambert

Reinforcement Learning with Verifiable Rewards - Teaching LL…

5.5K views6 months ago

YouTubeAdam Lucek

How Reinforcement Learning Works (Tutorial)

33.2K views4 months ago

YouTubeMatthew Berman

The "secret sauce" of recent AI breakthroughs: Post-training with …

21.3K views3 months ago

YouTubeLex Clips

[UCLA RL-LLM] Chapter 3.2: Reinforcement learning with verifi…

3.6K views10 months ago

YouTubeErnest Ryu

Reinforcement Learning with LLMs: a new era of AI agents

3.9K views3 months ago

YouTubeShaw Talebi

Spurious Rewards: Rethinking Training Signals in RLVR (May 2025)

98 views11 months ago

YouTubeAI Paper Slop

RLEV: Value-Weighted RL for LLM Alignment

29 views6 months ago

YouTubeAI Research Roundup

AI Learns in Low-Curvature Subspaces (RLVR)

3.7K views5 months ago

YouTubeDiscover AI

How to finetune LLMs to THINK with Reinforcement Learning (GRPO fr…

25.8K views10 months ago

YouTubeNeural Breakdown with AVB

How Far Can Unsupervised RLVR Scale LLM Training? (Mar 2026)

12 views1 month ago

YouTubeAI Paper Slop

RLVR Paradox: Why LLMs Use Memorization Shortcuts

21 views3 months ago

YouTubeAI Research Roundup

See more videos