webis/conclugen
收藏数据集概述
数据集名称
ConcluGen
数据集摘要
ConcluGen 数据集是为论证摘要任务构建的,包含来自 ChangeMyView 子论坛的 136,996 对论证文本及其结论。数据集有三个变体:topics, aspects, 和 targets,每个变体通过控制代码提供额外的论证知识,以生成更信息丰富的结论。
支持的任务和排行榜
- 任务:论证摘要、结论生成
- 排行榜:无
语言
英语 (en),源自 Reddit 的 r/changemyview 子论坛用户。
数据集结构
数据实例
每个实例包含一个唯一的 id,一个 argument(论证文本),及其 conclusion(结论)。数据集包含四个版本:base, topic, aspects, 和 targets,每个版本在论证文本中编码不同的信息。
数据字段
id: 字符串,每个例子的唯一标识符。argument: 字符串,论证文本。conclusion: 字符串,论证文本的结论。
数据分割
数据集根据不同的变体(包括 base)分为训练、验证和测试集。
数据集创建
数据收集和规范化
数据来源于 Reddit 的 ChangeMyView 子论坛。
源语言生产者
Reddit 的 r/changemyview 子论坛用户。
注释
数据集通过自动提取的知识进行增强,包括论证的方面、讨论主题和可能的结论目标。
使用数据的考虑
数据集的社会影响、偏见和其他已知限制
这些方面的详细信息需要进一步提供。
附加信息
数据集许可证
数据集的许可证状态取决于 Pushshift.io 数据的法律状态,目前尚不明确。
引用信息
@inproceedings{syed:2021, author = {Shahbaz Syed and Khalid Al Khatib and Milad Alshomary and Henning Wachsmuth and Martin Potthast}, editor = {Chengqing Zong and Fei Xia and Wenjie Li and Roberto Navigli}, title = {Generating Informative Conclusions for Argumentative Texts}, booktitle = {Findings of the Association for Computational Linguistics: {ACL/IJCNLP} 2021, Online Event, August 1-6, 2021}, pages = {3482--3493}, publisher = {Association for Computational Linguistics}, year = {2021}, url = {https://doi.org/10.18653/v1/2021.findings-acl.306}, doi = {10.18653/v1/2021.findings-acl.306} }



