five

defunct-datasets/eli5

收藏
Hugging Face2024-01-11 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/defunct-datasets/eli5
下载链接
链接失效反馈
官方服务:
资源简介:
ELI5数据集是一个英文数据集,包含了从三个Reddit子论坛(r/explainlikeimfive、r/askscience和r/AskHistorians)收集的问题和答案。该数据集旨在支持开放域长形式抽象问答任务,涵盖了从2012年到2019年的数据。数据集的结构包括问题ID、标题、问题正文、子论坛、答案列表等字段。数据被分为训练集、验证集和测试集,每个子论坛的数据都有相应的划分。数据集的创建目的是为了提供一个测试平台,让机器学会如何回答更复杂的问题。

The ELI5 dataset is an English-language dataset containing questions and answers collected from three Reddit subforums: r/explainlikeimfive, r/askscience, and r/AskHistorians. It is designed to support open-domain long-form abstractive question answering tasks, covering data from 2012 to 2019. The dataset includes fields such as question ID, title, question body, subforum, and answer list. The data is split into training, validation, and test sets, with corresponding splits for each of the three subforums. The dataset was created to provide a benchmark testbed for training machines to learn how to answer more complex questions.
提供机构:
defunct-datasets
原始信息汇总

数据集概述

数据集描述

数据集摘要

ELI5数据集是一个英语数据集,包含从三个子reddit收集的问题和答案,用户在这些子reddit中提出需要段落长度或更长答案的事实性问题。该数据集旨在支持开放域长形式抽象问答任务,涵盖了r/explainlikeimfive子集中的通用主题问题,r/askscience子集中的科学问题,以及r/AskHistorians子集中的历史问题。

支持的任务和排行榜

  • abstractive-qa, open-domain-abstractive-qa: 该数据集可用于训练开放域长形式问答模型。模型性能通过其与参考答案的ROUGE分数来衡量。

语言

数据集中的文本为英语,由Reddit用户在r/explainlikeimfiver/asksciencer/AskHistorians子reddit中使用。

数据集结构

数据实例

一个典型的数据点包括一个问题,问题包含一个title(主要问题)和一个selftext(有时对问题进行详细说明),以及一个按点赞数排序的论坛答案列表。此外,每个文本字段中的URL已被提取到相应的列表中,并在文本中被通用标记替换。

数据字段

  • q_id: 每个示例的问题标识符,对应于Pushshift.io Reddit提交转储中的ID。
  • subreddit: 问题来自的子reddit,包括explainlikeimfiveaskscienceAskHistorians
  • title: 问题的标题,URL已提取并替换为URL_n标记。
  • title_urls: 提取的URL列表,列表中的第n个元素被替换为URL_n
  • selftext: 问题的详细说明,或为空字符串。
  • selftext_urls: 类似于title_urls,但用于selftext
  • answers: 答案列表,每个答案包含:
    • a_id: 每个答案的标识符,对应于Pushshift.io Reddit评论转储中的ID。
    • text: 答案文本,URL已标准化。
    • score: 答案在转储创建时获得的点赞数。
  • answers_urls: 提取的URL列表。所有答案使用相同的列表,标准化标记的编号在答案文本中继续。

数据分割

数据集被分割为每个子reddit的训练、验证和测试集。为了避免在不同集合中出现重复问题,每个问题的title字段根据其与最近邻的tf-idf匹配进行排序,具有最小值的问题用于测试和验证集。最终的分割大小如下:

Train Valid Test
r/explainlikeimfive examples 272634 9812 24512
r/askscience examples 131778 2281 4462
r/AskHistorians examples 98525 4901 9764

数据集创建

策划理由

ELI5数据集旨在为机器学习如何回答更复杂的问题提供测试平台,这需要机器以连贯的方式查找和组合信息。数据集通过收集社区成员在三个子reddit中提出的问题以及其他用户提供的答案来构建。

源数据

初始数据收集和规范化

数据通过从Pushshift.io托管的Reddit论坛的XML转储中筛选感兴趣的子reddit的提交和评论获得。

为了进一步提高所选示例的质量,只有得分至少为2且至少有一个得分至少为2的答案的问题被选入数据集。数据集的问题和答案跨越2012年8月至2019年8月的时间段。

源语言生产者

语言生产者是2012年至2019年间在r/explainlikeimfiver/asksciencer/AskHistorians子reddit的用户。

注释

数据集不包含任何额外注释。

使用数据的注意事项

数据集的社会影响

该数据集旨在帮助开发更好的问答系统。一个成功的系统能够提供连贯的答案,即使是需要多步解释的复杂问题,这也是现有大型模型所无法做到的。

讨论偏见

Reddit虽然有许多高质量讨论的社区,但也存在性别歧视、仇恨和骚扰等问题。尽管有去偏见的工作,但模型学习数据中存在的偏见的可能性仍然是一个重要问题。

其他已知限制

数据集中的答案代表了Reddit用户的意见,尽管这些社区努力提供帮助,但不应将其视为绝对真理。

附加信息

数据集策展人

数据集最初由Angela Fan、Ethan Perez、Yacine Jernite、Jason Weston、Michael Auli和David Grangier在Facebook AI Research (FAIR)工作期间创建。

许可信息

数据集的许可状态取决于Pushshift.io数据的法律状态,目前尚不明确。

引用信息

@inproceedings{eli5_lfqa, author = {Angela Fan and Yacine Jernite and Ethan Perez and David Grangier and Jason Weston and Michael Auli}, editor = {Anna Korhonen and David R. Traum and Llu{{i}}s M{`{a}}rquez}, title = {{ELI5:} Long Form Question Answering}, booktitle = {Proceedings of the 57th Conference of the Association for Computational Linguistics, {ACL} 2019, Florence, Italy, July 28- August 2, 2019, Volume 1: Long Papers}, pages = {3558--3567}, publisher = {Association for Computational Linguistics}, year = {2019}, url = {https://doi.org/10.18653/v1/p19-1346}, doi = {10.18653/v1/p19-1346} }

贡献

感谢@lewtun@lhoestq@mariamabarham@thomwolf@yjernite添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
ELI5数据集构建于Reddit论坛的三个子版块:r/explainlikeimfive、r/askscience和r/AskHistorians。数据来源于2012年至2019年间的用户提问及其回答,通过Pushshift.io平台获取原始数据。为确保数据质量,仅筛选了得分至少为2的提问和回答。数据集经过URL提取和标准化处理,最终形成了包含问题、回答及其相关元数据的结构化数据集。
特点
ELI5数据集的特点在于其专注于长形式的抽象问答任务,涵盖了广泛的主题领域。数据集中的每个数据点包含问题的标题、详细描述、子版块信息以及多个按得分排序的回答。此外,数据集还提供了提取的URL列表,便于进一步的信息检索。数据集的多样性和复杂性使其成为训练和评估开放域问答系统的理想选择。
使用方法
ELI5数据集主要用于训练和评估开放域长形式抽象问答模型。研究人员可以使用该数据集来开发能够从知识源(如维基百科)检索信息并生成多句子答案的模型。通过ROUGE等指标评估模型性能,数据集还支持对模型生成的答案进行质量分析。此外,数据集的结构化格式便于进行数据预处理和特征提取,适用于多种自然语言处理任务。
背景与挑战
背景概述
ELI5数据集由Facebook AI Research(FAIR)的研究团队于2019年创建,旨在为开放域长形式抽象问答任务提供支持。该数据集主要基于Reddit论坛中的三个子版块(r/explainlikeimfive、r/askscience和r/AskHistorians)的用户生成内容,涵盖了从2012年至2019年间的问答数据。ELI5的创建旨在推动机器在复杂问题解答中的能力,尤其是需要多步推理和信息整合的场景。该数据集在自然语言处理领域具有重要影响力,尤其是在长形式问答模型的训练与评估中,为相关研究提供了丰富的实验数据。
当前挑战
ELI5数据集面临的主要挑战包括两个方面:首先,数据集所解决的领域问题——开放域长形式抽象问答——本身具有较高的复杂性,要求模型不仅能够检索相关信息,还需生成连贯且易于理解的段落长度答案。其次,数据集的构建过程中也面临诸多挑战,例如数据来源的合法性与可用性问题。由于Reddit近期更改了API访问政策,导致原始数据无法获取,这使得数据集的更新与维护变得困难。此外,数据集中的内容由Reddit用户生成,可能存在偏见或不准确的信息,这对模型的训练与评估提出了额外的挑战。
常用场景
经典使用场景
ELI5数据集广泛应用于开放域长形式抽象问答任务的研究中。该数据集通过收集来自Reddit社区的长篇问答,为模型提供了一个丰富的训练环境,使其能够生成多句连贯的答案。经典的使用场景包括利用BART等预训练模型进行问答生成,并通过ROUGE等指标评估模型性能。
实际应用
在实际应用中,ELI5数据集可用于开发智能问答系统,帮助用户获取复杂问题的详细解答。例如,在教育领域,该系统可以为学生提供科学、历史等学科的深入解释;在知识管理领域,它可以帮助企业员工快速获取专业知识。
衍生相关工作
ELI5数据集衍生了许多经典研究工作,例如基于BART的问答生成模型及其改进版本。这些研究不仅提升了模型的生成能力,还推动了检索增强生成(Retrieval-Augmented Generation, RAG)技术的发展。此外,该数据集还激发了关于问答系统偏见和公平性的研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作