five

webis/conclugen

收藏
Hugging Face2022-05-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/webis/conclugen
下载链接
链接失效反馈
官方服务:
资源简介:
ConcluGen语料库是为论证总结任务构建的,包含来自ChangeMyView子论坛的136,996对论证文本及其结论。该语料库有三个变体:主题、方面和目标,每个变体通过控制代码编码相应的信息,以生成更具信息量的结论。数据集支持的任务包括论证总结和结论生成,语言为英语。数据集的结构包括数据实例、数据字段和数据分割。创建数据集的理由是为了推动论证总结技术的发展,数据来源为Reddit的ChangeMyView子论坛。数据集未包含个人和敏感信息,但存在一些未知的社会影响、偏见和限制。
提供机构:
webis
原始信息汇总

数据集概述

数据集名称

ConcluGen

数据集摘要

ConcluGen 数据集是为论证摘要任务构建的,包含来自 ChangeMyView 子论坛的 136,996 对论证文本及其结论。数据集有三个变体:topics, aspects, 和 targets,每个变体通过控制代码提供额外的论证知识,以生成更信息丰富的结论。

支持的任务和排行榜

  • 任务:论证摘要、结论生成
  • 排行榜:无

语言

英语 (en),源自 Reddit 的 r/changemyview 子论坛用户。

数据集结构

数据实例

每个实例包含一个唯一的 id,一个 argument(论证文本),及其 conclusion(结论)。数据集包含四个版本:base, topic, aspects, 和 targets,每个版本在论证文本中编码不同的信息。

数据字段

  • id: 字符串,每个例子的唯一标识符。
  • argument: 字符串,论证文本。
  • conclusion: 字符串,论证文本的结论。

数据分割

数据集根据不同的变体(包括 base)分为训练、验证和测试集。

数据集创建

数据收集和规范化

数据来源于 Reddit 的 ChangeMyView 子论坛。

源语言生产者

Reddit 的 r/changemyview 子论坛用户。

注释

数据集通过自动提取的知识进行增强,包括论证的方面、讨论主题和可能的结论目标。

使用数据的考虑

数据集的社会影响、偏见和其他已知限制

这些方面的详细信息需要进一步提供。

附加信息

数据集许可证

数据集的许可证状态取决于 Pushshift.io 数据的法律状态,目前尚不明确。

引用信息

@inproceedings{syed:2021, author = {Shahbaz Syed and Khalid Al Khatib and Milad Alshomary and Henning Wachsmuth and Martin Potthast}, editor = {Chengqing Zong and Fei Xia and Wenjie Li and Roberto Navigli}, title = {Generating Informative Conclusions for Argumentative Texts}, booktitle = {Findings of the Association for Computational Linguistics: {ACL/IJCNLP} 2021, Online Event, August 1-6, 2021}, pages = {3482--3493}, publisher = {Association for Computational Linguistics}, year = {2021}, url = {https://doi.org/10.18653/v1/2021.findings-acl.306}, doi = {10.18653/v1/2021.findings-acl.306} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作