Webis-TLDR-17, Reddit TIFU
收藏github2024-05-08 更新2024-05-31 收录
下载链接:
https://github.com/anna-kay/Reddit-summarization
下载链接
链接失效反馈官方服务:
资源简介:
Webis-TLDR-17数据集包含来自29,650个不同subreddits的文本,时间跨度为2006至2016年,总计3,848,330条记录,包含字段如作者、正文、规范化正文、subreddit、subreddit_id、id以及内容和摘要。Reddit TIFU数据集专注于r/tifu subreddit,时间跨度为2013年1月至2018年3月,包含42,139条记录,字段包括点赞数、评论数、投票比例、分数、文档、tldr和标题,其中文档和tldr分别代表源文本和摘要。
The Webis-TLDR-17 dataset encompasses texts from 29,650 distinct subreddits, spanning the years 2006 to 2016, and comprises a total of 3,848,330 records. It includes fields such as author, body, normalized body, subreddit, subreddit_id, id, as well as content and summaries. The Reddit TIFU dataset focuses on the r/tifu subreddit, covering the period from January 2013 to March 2018, and contains 42,139 records. The fields include upvotes, comments, vote ratio, score, document, tldr, and title, where document and tldr represent the source text and summary, respectively.
创建时间:
2023-03-20
原始信息汇总
数据集概述
数据集信息
| 数据集 | 子版块 | 时间范围 | 大小 | 字段 |
|---|---|---|---|---|
| Webis-TLDR-17 | 29,650个不同子版块(包括r/tifu) | 2006-2016 | 3,848,330 | author, body, normalizedBody, subreddit, subreddit_id, id, content, summary |
| Reddit TIFU | r/tifu | 2013-01至2018-03 | 42,139 | ups, num_comments, upvote_ratio, score, documents, tldr, title, documents, tldr |
数据集问题
-
数据集重叠:
- Webis-TLDR-17和Reddit TIFU之间存在重叠,特别是在r/tifu子版块中,时间跨度为2013至2016年。两个数据集共享约5,700个共同项,占Reddit TIFU的13.5%,Webis-TLDR-17中r/tifu项的10.9%,以及Webis-TLDR-17总量的0.15%。
-
数据集包含重复项:
- Webis-TLDR-17:包含40,407个项是源文本(content字段)的精确重复,占30,966个非唯一值。
- Reddit TIFU:包含38个项是源文本(documents字段)的精确重复,以及56个几乎重复项。其中,一个项在数据集中出现25次。
-
无官方的训练-验证-测试分割:
- 两个数据集均未提供官方的训练、验证和测试分割。所有数据均使用split=train参数加载。
-
数据集噪声问题:
- 由于Reddit是开放平台,数据质量问题普遍存在。在摘要任务中,主要问题包括:
- 非常短的摘要,与源文本不成比例。
- 用户未在摘要字段提供摘要,而是发布简短消息,提示阅读整个源文本或标题,或提供结论、一般真理,或提出问题。
- 由于Reddit是开放平台,数据质量问题普遍存在。在摘要任务中,主要问题包括:
这些数据点由于与摘要原则缺乏一致性,不适合用于训练摘要模型。
搜集汇总
数据集介绍

构建方式
该数据集的构建围绕自然语言处理中的抽象摘要任务展开,主要针对来自Reddit的非正式、噪声文本进行摘要生成。数据集Webis-TLDR-17和Reddit TIFU分别从2006-2016和2013-2018的时间跨度内收集自Reddit的不同子版块,特别是Webis-TLDR-17涵盖了29,650个不同的子版块,而Reddit TIFU则专注于'r/tifu'子版块。数据集的构建过程中,通过筛选和过滤噪声数据,确保了文本的质量,尽管存在部分重复和重叠问题,但通过详细的探索性数据分析和过滤步骤,数据集的可用性得到了提升。
特点
该数据集的主要特点在于其来源的多样性和噪声特性,这为模型提供了处理非正式和噪声文本的挑战性环境。Webis-TLDR-17和Reddit TIFU均包含丰富的文本和摘要对,适用于训练和评估抽象摘要模型。尽管存在数据重叠和重复的问题,但这些特点也为研究者提供了探索数据清洗和去重技术的契机。此外,数据集的噪声特性反映了真实世界数据的复杂性,使得模型在实际应用中的表现更具代表性。
使用方法
使用该数据集时,研究者可以通过Hugging Face平台下载并加载数据集,利用提供的代码进行数据预处理和模型微调。数据集的加载可以通过指定'split=train'参数来获取完整数据集,随后进行必要的清洗和分割。模型训练和评估可以基于提供的PyTorch代码进行,包括定义数据集类、训练脚本和评估脚本。通过这些步骤,研究者可以有效地利用该数据集进行抽象摘要模型的开发和验证。
背景与挑战
背景概述
在自然语言处理(NLP)领域,摘要生成是一项关键任务,旨在从冗长的文本中提取核心信息并生成简洁的摘要。Webis-TLDR-17和Reddit TIFU数据集的创建,正是为了推动这一领域的研究。Webis-TLDR-17数据集由多个子版块的Reddit帖子组成,时间跨度为2006至2016年,包含3,848,330条数据,涵盖了丰富的文本和摘要信息。Reddit TIFU数据集则专注于'r/tifu'子版块,时间跨度为2013至2018年,包含42,139条数据。这两个数据集的创建,为研究者提供了丰富的资源,以探索和优化基于Transformer的摘要生成模型,从而推动了NLP领域的发展。
当前挑战
尽管Webis-TLDR-17和Reddit TIFU数据集为摘要生成任务提供了宝贵的资源,但在构建和使用过程中仍面临诸多挑战。首先,两个数据集之间存在显著的重叠,尤其是在'r/tifu'子版块的数据上,这可能导致训练数据的冗余和模型泛化能力的下降。其次,两个数据集均包含大量的重复数据,这不仅增加了数据处理的复杂性,还可能影响模型的训练效果。此外,数据集缺乏官方的训练-验证-测试分割,研究者需要自行处理数据分割问题,增加了实验设计的难度。最后,由于Reddit平台的开放性,数据质量参差不齐,尤其是摘要部分存在大量不符合摘要原则的短文本或无关信息,这使得数据预处理和模型训练变得更加复杂。
常用场景
经典使用场景
Webis-TLDR-17和Reddit TIFU数据集在自然语言处理领域中,主要用于抽象摘要任务。这些数据集包含了来自Reddit的非正式和噪声文本,通过Transformer模型进行摘要生成。经典的使用场景包括对Reddit帖子的内容进行摘要,以生成简洁且信息丰富的摘要文本。这种应用在新闻摘要、社交媒体内容分析等领域具有广泛的应用前景。
解决学术问题
这些数据集解决了自然语言处理中抽象摘要任务的关键问题,特别是在处理非正式和噪声文本时。通过提供大量的Reddit帖子及其摘要,研究者能够训练和评估摘要模型,解决摘要生成中的文本噪声、不一致性和短文本问题。这不仅推动了抽象摘要技术的发展,还为相关领域的研究提供了宝贵的资源。
衍生相关工作
基于Webis-TLDR-17和Reddit TIFU数据集,研究者们开发了多种先进的摘要模型,如BART、PEGASUS和ProphetNet。这些模型在多个摘要任务中表现出色,推动了抽象摘要技术的前沿发展。此外,这些数据集还激发了关于数据噪声处理、数据集重叠分析和模型泛化能力等问题的深入研究,形成了丰富的学术成果和技术创新。
以上内容由遇见数据集搜集并总结生成



