Stories by Danau5tin

Scaling Coding-Agent RL to 32x H100s. 160% Improvement on Stanford's TBench

Show HN: Multi-Agent-Coder Is #12 on Stanford's TBench. Beats Claude Code

My weekend project accidentally beat Claude Code – #12 on Stanford's TBench

Show HN: Terminal-Bench-RL: Training long-horizon terminal agents with RL