Papers

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

Via ArXiv cs.AI

Monday, Mar 23, 2026 · 4:00AM

Summary

arXiv:2603.19515v1 Announce Type: new Abstract: Large language models (LLMs) with advanced cognitive capabilities are emerging as agents for various reasoning and planning tasks. Traditional evaluations often focus on specific reasoning or planning questions within controlled environments. Recent st

Continue reading the full article

Read at ArXiv cs.AI

arxiv.org