wenbopan/anti-haystack

Name: wenbopan/anti-haystack
Creator: wenbopan
Published: 2024-03-19 07:14:38
License: 暂无描述

Hugging Face2024-03-19 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/wenbopan/anti-haystack

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含类似于“大海捞针”压力测试的样本，旨在帮助提高LLM在长文档中查找短事实的能力。每个样本包含三个字段：文档（长且嘈杂的参考文档，可以是故事、代码、书籍或手册，包含10%的中文内容）、问题（由GPT-4生成，答案始终可以在文档的单个段落中找到）和答案（由GPT-4生成，通常是短短语或文档中的位置，例如“第4段”）。为了增加数据集的多样性和真实性，生成数据集时使用了不同的查询类型要求。

提供机构：

wenbopan

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
数据集名称: anti-haystack

数据结构

特征:
- document: 字符串类型，包含长且嘈杂的参考文档，内容可以是故事、代码、书籍或手册，支持英语和中文（10%）。
- question: 字符串类型，由GPT-4生成，答案总能在文档的单一自然段中找到。
- answer: 字符串类型，由GPT-4生成，通常是一个简短的短语或文档中的位置（例如，第4段）。

数据集划分

训练集:
- 样本数量: 2424
- 数据大小: 173877766字节

语言支持

英语 (en)
中文 (zh)

任务类别

文本生成
摘要

大小类别

1K<n<10K

5,000+

优质数据集

54 个

任务类型

进入经典数据集