five

aldea-ai/12m-niah

收藏
Hugging Face2026-04-22 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/aldea-ai/12m-niah
下载链接
链接失效反馈
官方服务:
资源简介:
1200万token的NIAH评估数据集,包含79个样本,每个样本在一个约1200万token的长文本中嵌入一个召回问题。数据集分为四个类别:代理代码词(12样本)、项目魔法数字(13样本)、首都城市(12样本)和其他(42样本)。每个样本的文本末尾包含特定的问题回答格式,用于评估模型在长文本中定位关键信息的能力。

12M-token NIAH evaluation data consisting of 79 samples, each containing exactly one recall question embedded in a ~12M-token haystack. The dataset is categorized into: agent_codeword (12 samples), project_magic_number (13 samples), capital_city (12 samples), and other (42 samples). Each sample ends with a specific question-answer format, designed for evaluating models ability to locate key information in long contexts.
提供机构:
aldea-ai
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作