aldea-ai/12m-niah
收藏Hugging Face2026-04-22 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/aldea-ai/12m-niah
下载链接
链接失效反馈官方服务:
资源简介:
1200万token的NIAH评估数据集,包含79个样本,每个样本在一个约1200万token的长文本中嵌入一个召回问题。数据集分为四个类别:代理代码词(12样本)、项目魔法数字(13样本)、首都城市(12样本)和其他(42样本)。每个样本的文本末尾包含特定的问题回答格式,用于评估模型在长文本中定位关键信息的能力。
12M-token NIAH evaluation data consisting of 79 samples, each containing exactly one recall question embedded in a ~12M-token haystack. The dataset is categorized into: agent_codeword (12 samples), project_magic_number (13 samples), capital_city (12 samples), and other (42 samples). Each sample ends with a specific question-answer format, designed for evaluating models ability to locate key information in long contexts.
提供机构:
aldea-ai



