webis/conclugen

Name: webis/conclugen
Creator: webis
Published: 2022-05-03 06:18:33
License: 暂无描述

Hugging Face2022-05-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/webis/conclugen

下载链接

链接失效反馈

官方服务：

资源简介：

ConcluGen语料库是为论证总结任务构建的，包含来自ChangeMyView子论坛的136,996对论证文本及其结论。该语料库有三个变体：主题、方面和目标，每个变体通过控制代码编码相应的信息，以生成更具信息量的结论。数据集支持的任务包括论证总结和结论生成，语言为英语。数据集的结构包括数据实例、数据字段和数据分割。创建数据集的理由是为了推动论证总结技术的发展，数据来源为Reddit的ChangeMyView子论坛。数据集未包含个人和敏感信息，但存在一些未知的社会影响、偏见和限制。

提供机构：

webis

原始信息汇总

数据集概述

数据集名称

ConcluGen

数据集摘要

ConcluGen 数据集是为论证摘要任务构建的，包含来自 ChangeMyView 子论坛的 136,996 对论证文本及其结论。数据集有三个变体：topics, aspects, 和 targets，每个变体通过控制代码提供额外的论证知识，以生成更信息丰富的结论。

支持的任务和排行榜

任务：论证摘要、结论生成
排行榜：无

语言

英语 (en)，源自 Reddit 的 r/changemyview 子论坛用户。

数据集结构

数据实例

每个实例包含一个唯一的 id，一个 argument（论证文本），及其 conclusion（结论）。数据集包含四个版本：base, topic, aspects, 和 targets，每个版本在论证文本中编码不同的信息。

数据字段

id: 字符串，每个例子的唯一标识符。
argument: 字符串，论证文本。
conclusion: 字符串，论证文本的结论。

数据分割

数据集根据不同的变体（包括 base）分为训练、验证和测试集。

数据集创建

数据收集和规范化

数据来源于 Reddit 的 ChangeMyView 子论坛。

源语言生产者

Reddit 的 r/changemyview 子论坛用户。

注释

数据集通过自动提取的知识进行增强，包括论证的方面、讨论主题和可能的结论目标。

使用数据的考虑

数据集的社会影响、偏见和其他已知限制

这些方面的详细信息需要进一步提供。

附加信息

数据集许可证

数据集的许可证状态取决于 Pushshift.io 数据的法律状态，目前尚不明确。

引用信息

@inproceedings{syed:2021, author = {Shahbaz Syed and Khalid Al Khatib and Milad Alshomary and Henning Wachsmuth and Martin Potthast}, editor = {Chengqing Zong and Fei Xia and Wenjie Li and Roberto Navigli}, title = {Generating Informative Conclusions for Argumentative Texts}, booktitle = {Findings of the Association for Computational Linguistics: {ACL/IJCNLP} 2021, Online Event, August 1-6, 2021}, pages = {3482--3493}, publisher = {Association for Computational Linguistics}, year = {2021}, url = {https://doi.org/10.18653/v1/2021.findings-acl.306}, doi = {10.18653/v1/2021.findings-acl.306} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集