microsoft/kitab
收藏Hugging Face2023-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/microsoft/kitab
下载链接
链接失效反馈官方服务:
资源简介:
KITAB是一个具有挑战性的数据集,用于测试大型语言模型(LLMs)在信息检索查询中满足约束条件的能力。数据集包含超过600位作者和13,000个查询,每个查询的第一个约束条件总是固定的作者,后续约束条件可以是词汇(如标题以某个字母开头或结尾、标题中的单词数量)、时间(如出版年份范围)或命名实体(如标题中是否包含城市或人名)等类型。数据集还包括用于生成新样本的示例代码、评估脚本和提示模板。此外,数据集还提供了详细的统计信息、数据收集和清理的细节,以及负责任的人工智能考虑。
提供机构:
microsoft
原始信息汇总
数据集概述
KITAB 是一个用于测试大型语言模型(LLMs)在带有约束过滤的信息检索查询中能力的挑战性数据集。数据集包含超过600位作者和13,000个查询,每个查询的第一个约束固定为作者,后续约束类型包括:
- 词汇约束(标题以某个字母开始或结束,标题中的单词数)
- 时间约束(出版年份在起始和结束年份之间)
- 命名实体约束(标题中包含或不包含城市名或人名)
数据集内容
数据文件
- KITAB-ONE-BOOK-CONSTRAINTS.json 和 KITAB-TWO-BOOK-CONSTRAINTS.json:包含一个和两个书约束的查询。每个文件包含作者、出生年份、维基数据中的站点链接数、约束类型、自然语言表达的约束、作者的所有书籍以及满足约束的书籍列表。
- KITAB-author-metadata.json:包含611位作者的元数据,包括出生年份、维基数据中的站点链接数以及对应的Open Library和维基数据标识符。
- KITAB-book-metadata.tar.gz:包含每位作者从OpenLibrary获取的所有书籍的元数据,包括Open Library ID、维基数据ID(如果有)、出版语言、版本数、标题中的单词数、最早出版年份、标题中的城市名(如果有)等。
数据特征
KITAB-ONE-BOOK-CONSTRAINTS.json 的特征如下:
- Author: 作者姓名
- Birth Year: 作者出生年份
- # of sitelinks: 作者的站点链接数
- constraint_id: 约束的唯一ID
- constraint_type: 约束类型
- constraints: 约束内容
- mapped_books: 满足约束的书籍列表
- all_books: 作者的所有书籍(清理后)
- raw_books: 作者的所有书籍(原始数据)
数据集统计
数据集包含8239个单约束查询和4750个双约束查询。约束类型包括:
- starts-with
- ends-with
- word-count
- human-name
- no-human-name
- city-name
- no-city-name
- publishing-year
约束类型统计
| Constraint Type | # queries (One book constraints) | constrainedness (One book constraints) | # queries (Two book constraints) | constrainedness (Two book constraints) |
|---|---|---|---|---|
| starts-with | 598 | 0.90 | 2163 | 0.92 |
| ends-with | 482 | 0.89 | 1782 | 0.91 |
| word-count | 1672 | 0.53 | 1630 | 0.81 |
| human-name | 611 | 0.77 | 292 | 0.89 |
| no-human-name | 611 | 0.23 | 801 | 0.78 |
| city-name | 611 | 0.92 | 197 | 0.81 |
| no-city-name | 611 | 0.08 | 831 | 0.77 |
| publishing-year | 3043 | 0.80 | 1804 | 0.89 |
| Summary | 8239 | 0.67 | 4750 | 0.87 |



