Reward Hacking in Reinforcement Learning

Radar

Reward Hacking in Reinforcement Learning

📌Harness Pattern

FeaturedApr 6, 2026

Reward hacking occurs when a reinforcement learning (RL)) agent exploits flaws or ambiguities in the reward function to achieve high rewards, without genuinely learning or complet...

LLMAgentResearchArchitecturePatternHarness

Visit

2 days ago2 sources · 15 min read

A Concrete Definition of an AI Agent

An AI agent pursues a goal by iteratively taking actions, evaluating progress, and deciding next steps. Useful agents must be reliable, adaptive, and accurate.

nngroup.comcloud.google.com

Mar 273 sources · 2 min read

OpenAI deploys real-time monitors to catch coding agent misalignment

OpenAI built a GPT-5.4-powered monitor that analyzes coding agents' reasoning chains in real time, logging about 1,000 alerts across tens of millions of agentic interactions over five months.

openai.comitbrief.asiallmbase.ai

Radar