Stories by declanjackson

GLM-5.2 is above GPT-5.5 in new agentic knowledge work eval

Show HN: AA-Briefcase: a frontier knowledge work evaluation

AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Language Models