#data-contamination
#data-contamination

[ follow ]

Epoch AI Unveils FrontierMath: A New Frontier in Testing AI's Mathematical Reasoning Capabilities

Epoch AI's FrontierMath addresses the inadequacies of existing AI benchmarks by evaluating advanced mathematical reasoning with rigorous, novel problems.

Apple study exposes deep cracks in LLMs' "reasoning" capabilities

Large language models struggle with genuine mathematical reasoning, showing brittle performance on modified benchmark problems.

[ Load more ]