Topic · 12 episodes across 7 reviews

When Agents Cause Harm With No Attacker in the Loop

Two papers arguing the scariest agent failures aren't adversarial at all — helpful agents improvising into unsafe behavior after benign errors, and hallucinations that authorize real-world actions.

Covered in these reviews

AI Papers Week in Review: June 29–July 5, 2026Jul 5, 2026 · 21 episodes
AI Papers Month in Review: June 2026Jun 30, 2026 · 81 episodes
AI Papers Week in Review: June 22–28, 2026Jun 28, 2026 · 18 episodes
AI Papers Week in Review: June 15–21, 2026Jun 21, 2026 · 18 episodes
AI Papers Week in Review: June 1–7, 2026Jun 7, 2026 · 15 episodes
AI Papers Month in Review: May 2026May 31, 2026 · 99 episodes
AI Papers Week in Review: May 18–24, 2026May 24, 2026 · 23 episodes

When Agents Cause Harm With No Attacker in the Loop

Covered in these reviews

Related concepts