five

大海捞针测试语料

收藏
魔搭社区2026-05-24 更新2025-05-31 收录
下载链接:
https://modelscope.cn/datasets/AI-ModelScope/Needle-in-a-Haystack-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
# 大海捞针测试语料库 该数据集用于测试模型在大海捞针任务中的表现。大海捞针任务是指在一个包含大量无关信息的文本中,找到特定的、通常是非常少量的相关信息。 数据包含中文和英文两种语言的文本: - **中文文本**:来自《西游记》 - **英文文本**:来自 保罗·格雷厄姆 的文章 ## 使用方法 请参考[evalscope文档](https://evalscope.readthedocs.io/zh-cn/latest/third_party/needle_haystack.html) 以评测qwen-plus模型为例,在1k-128k长度,运行单针任务。 输出示例: ![needle_haystack_report](images/needle_haystack_heatmap_chinese.png) *中文测试* ![needle_haystack_report](images/needle_haystack_heatmap_english.png) *英文测试* #### 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"}

# 大海捞针测试语料库 本数据集用于评估模型在大海捞针任务(Needle-in-a-Haystack Task)中的性能表现。所谓大海捞针任务,即要求模型在包含大量无关信息的文本中,精准定位少量特定相关信息的任务。 本数据集涵盖中文与英文两类文本: - **中文文本**:源自中国古典名著《西游记》 - **英文文本**:取自保罗·格雷厄姆(Paul Graham)的公开文章 ## 使用方法 请参阅 [evalscope文档](https://evalscope.readthedocs.io/zh-cn/latest/third_party/needle_haystack.html) 以qwen-plus模型为例,可在1k至128k的文本长度范围内运行单针任务。 输出示例: ![needle_haystack_report](images/needle_haystack_heatmap_chinese.png) * 中文测试结果 ![needle_haystack_report](images/needle_haystack_heatmap_english.png) * 英文测试结果 #### 下载方式 本数据集可通过以下两种途径获取: :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2025-05-30
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集用于测试模型在'大海捞针'任务中的性能,包含中英文文本,中文来自《西游记》,英文来自Paul Graham的文章。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务