five

microsoft/kitab

收藏
Hugging Face2023-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/microsoft/kitab
下载链接
链接失效反馈
官方服务:
资源简介:
KITAB是一个具有挑战性的数据集,用于测试大型语言模型(LLMs)在信息检索查询中满足约束条件的能力。数据集包含超过600位作者和13,000个查询,每个查询的第一个约束条件总是固定的作者,后续约束条件可以是词汇(如标题以某个字母开头或结尾、标题中的单词数量)、时间(如出版年份范围)或命名实体(如标题中是否包含城市或人名)等类型。数据集还包括用于生成新样本的示例代码、评估脚本和提示模板。此外,数据集还提供了详细的统计信息、数据收集和清理的细节,以及负责任的人工智能考虑。
提供机构:
microsoft
原始信息汇总

数据集概述

KITAB 是一个用于测试大型语言模型(LLMs)在带有约束过滤的信息检索查询中能力的挑战性数据集。数据集包含超过600位作者和13,000个查询,每个查询的第一个约束固定为作者,后续约束类型包括:

  • 词汇约束(标题以某个字母开始或结束,标题中的单词数)
  • 时间约束(出版年份在起始和结束年份之间)
  • 命名实体约束(标题中包含或不包含城市名或人名)

数据集内容

数据文件

  • KITAB-ONE-BOOK-CONSTRAINTS.jsonKITAB-TWO-BOOK-CONSTRAINTS.json:包含一个和两个书约束的查询。每个文件包含作者、出生年份、维基数据中的站点链接数、约束类型、自然语言表达的约束、作者的所有书籍以及满足约束的书籍列表。
  • KITAB-author-metadata.json:包含611位作者的元数据,包括出生年份、维基数据中的站点链接数以及对应的Open Library和维基数据标识符。
  • KITAB-book-metadata.tar.gz:包含每位作者从OpenLibrary获取的所有书籍的元数据,包括Open Library ID、维基数据ID(如果有)、出版语言、版本数、标题中的单词数、最早出版年份、标题中的城市名(如果有)等。

数据特征

KITAB-ONE-BOOK-CONSTRAINTS.json 的特征如下:

  • Author: 作者姓名
  • Birth Year: 作者出生年份
  • # of sitelinks: 作者的站点链接数
  • constraint_id: 约束的唯一ID
  • constraint_type: 约束类型
  • constraints: 约束内容
  • mapped_books: 满足约束的书籍列表
  • all_books: 作者的所有书籍(清理后)
  • raw_books: 作者的所有书籍(原始数据)

数据集统计

数据集包含8239个单约束查询和4750个双约束查询。约束类型包括:

  • starts-with
  • ends-with
  • word-count
  • human-name
  • no-human-name
  • city-name
  • no-city-name
  • publishing-year

约束类型统计

Constraint Type # queries (One book constraints) constrainedness (One book constraints) # queries (Two book constraints) constrainedness (Two book constraints)
starts-with 598 0.90 2163 0.92
ends-with 482 0.89 1782 0.91
word-count 1672 0.53 1630 0.81
human-name 611 0.77 292 0.89
no-human-name 611 0.23 801 0.78
city-name 611 0.92 197 0.81
no-city-name 611 0.08 831 0.77
publishing-year 3043 0.80 1804 0.89
Summary 8239 0.67 4750 0.87
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作