defunct-datasets/eli5
收藏数据集概述
数据集描述
数据集摘要
ELI5数据集是一个英语数据集,包含从三个子reddit收集的问题和答案,用户在这些子reddit中提出需要段落长度或更长答案的事实性问题。该数据集旨在支持开放域长形式抽象问答任务,涵盖了r/explainlikeimfive子集中的通用主题问题,r/askscience子集中的科学问题,以及r/AskHistorians子集中的历史问题。
支持的任务和排行榜
abstractive-qa,open-domain-abstractive-qa: 该数据集可用于训练开放域长形式问答模型。模型性能通过其与参考答案的ROUGE分数来衡量。
语言
数据集中的文本为英语,由Reddit用户在r/explainlikeimfive、r/askscience和r/AskHistorians子reddit中使用。
数据集结构
数据实例
一个典型的数据点包括一个问题,问题包含一个title(主要问题)和一个selftext(有时对问题进行详细说明),以及一个按点赞数排序的论坛答案列表。此外,每个文本字段中的URL已被提取到相应的列表中,并在文本中被通用标记替换。
数据字段
q_id: 每个示例的问题标识符,对应于Pushshift.io Reddit提交转储中的ID。subreddit: 问题来自的子reddit,包括explainlikeimfive、askscience或AskHistorians。title: 问题的标题,URL已提取并替换为URL_n标记。title_urls: 提取的URL列表,列表中的第n个元素被替换为URL_n。selftext: 问题的详细说明,或为空字符串。selftext_urls: 类似于title_urls,但用于selftext。answers: 答案列表,每个答案包含:a_id: 每个答案的标识符,对应于Pushshift.io Reddit评论转储中的ID。text: 答案文本,URL已标准化。score: 答案在转储创建时获得的点赞数。
answers_urls: 提取的URL列表。所有答案使用相同的列表,标准化标记的编号在答案文本中继续。
数据分割
数据集被分割为每个子reddit的训练、验证和测试集。为了避免在不同集合中出现重复问题,每个问题的title字段根据其与最近邻的tf-idf匹配进行排序,具有最小值的问题用于测试和验证集。最终的分割大小如下:
| Train | Valid | Test | |
|---|---|---|---|
| r/explainlikeimfive examples | 272634 | 9812 | 24512 |
| r/askscience examples | 131778 | 2281 | 4462 |
| r/AskHistorians examples | 98525 | 4901 | 9764 |
数据集创建
策划理由
ELI5数据集旨在为机器学习如何回答更复杂的问题提供测试平台,这需要机器以连贯的方式查找和组合信息。数据集通过收集社区成员在三个子reddit中提出的问题以及其他用户提供的答案来构建。
源数据
初始数据收集和规范化
数据通过从Pushshift.io托管的Reddit论坛的XML转储中筛选感兴趣的子reddit的提交和评论获得。
为了进一步提高所选示例的质量,只有得分至少为2且至少有一个得分至少为2的答案的问题被选入数据集。数据集的问题和答案跨越2012年8月至2019年8月的时间段。
源语言生产者
语言生产者是2012年至2019年间在r/explainlikeimfive、r/askscience和r/AskHistorians子reddit的用户。
注释
数据集不包含任何额外注释。
使用数据的注意事项
数据集的社会影响
该数据集旨在帮助开发更好的问答系统。一个成功的系统能够提供连贯的答案,即使是需要多步解释的复杂问题,这也是现有大型模型所无法做到的。
讨论偏见
Reddit虽然有许多高质量讨论的社区,但也存在性别歧视、仇恨和骚扰等问题。尽管有去偏见的工作,但模型学习数据中存在的偏见的可能性仍然是一个重要问题。
其他已知限制
数据集中的答案代表了Reddit用户的意见,尽管这些社区努力提供帮助,但不应将其视为绝对真理。
附加信息
数据集策展人
数据集最初由Angela Fan、Ethan Perez、Yacine Jernite、Jason Weston、Michael Auli和David Grangier在Facebook AI Research (FAIR)工作期间创建。
许可信息
数据集的许可状态取决于Pushshift.io数据的法律状态,目前尚不明确。
引用信息
@inproceedings{eli5_lfqa, author = {Angela Fan and Yacine Jernite and Ethan Perez and David Grangier and Jason Weston and Michael Auli}, editor = {Anna Korhonen and David R. Traum and Llu{{i}}s M{`{a}}rquez}, title = {{ELI5:} Long Form Question Answering}, booktitle = {Proceedings of the 57th Conference of the Association for Computational Linguistics, {ACL} 2019, Florence, Italy, July 28- August 2, 2019, Volume 1: Long Papers}, pages = {3558--3567}, publisher = {Association for Computational Linguistics}, year = {2019}, url = {https://doi.org/10.18653/v1/p19-1346}, doi = {10.18653/v1/p19-1346} }
贡献
感谢@lewtun、@lhoestq、@mariamabarham、@thomwolf、@yjernite添加此数据集。




