five

ghomasHudson/hotpotExtended

收藏
Hugging Face2022-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ghomasHudson/hotpotExtended
下载链接
链接失效反馈
官方服务:
资源简介:
HotpotQA-extended数据集是HotpotQA数据集的扩展版本,包含了完整的维基百科文章。HotpotQA数据集包含来自众包工作者的问题,这些问题需要从多个维基百科文章中获取信息来回答,从而测试模型进行多跳问答的能力。数据集通常以包含相关信息的段落列表形式呈现,并通过添加‘干扰段落’来全面测试模型理解哪些信息与所提问题相关的能力。在此数据集中,通过将每个段落扩展为其完整的维基百科页面,并添加来自类似主题的额外干扰文章,以满足该基准测试的10,000个标记的最小长度要求。

The HotpotQA-extended dataset is an extended version of the HotpotQA dataset, which includes full-length Wikipedia articles. The original HotpotQA dataset consists of crowdsourced questions that require integrating information from multiple Wikipedia articles to answer, thus evaluating the multi-hop question answering capabilities of models. The dataset is typically presented as a list of paragraphs containing relevant information, with "distractor paragraphs" added to comprehensively assess the model's ability to discern which information is pertinent to the posed question. In this extended dataset, each original paragraph is expanded to its complete Wikipedia page, and additional distractor articles from similar topics are added to meet the minimum length requirement of 10,000 tokens for this benchmark.
提供机构:
ghomasHudson
原始信息汇总

数据集概述

数据集名称

HotpotQA-extended

数据集版本

包含完整Wikipedia文章的HotpotQA数据集版本。

数据集内容

  • 问题来源:由众包工作者提供的问题。
  • 问题特点:需要从多个Wikipedia文章中获取信息才能回答,测试模型的多跳问答能力。
  • 数据呈现方式:通常包括包含相关信息的段落列表,以及加入“干扰段落”以全面测试模型对问题相关信息的理解能力。

数据集扩展

  • 输入长度增加:每个段落扩展至其完整的Wikipedia页面,并添加来自相似主题的额外干扰文章。
  • 长度要求:满足此基准的10,000个令牌的最小长度要求。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作