abortion_definitions_annotations

Hugging Face2025-08-08 更新2025-08-09 收录

下载链接：

https://huggingface.co/datasets/LT3/abortion_definitions_annotations

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含关于“堕胎”主题的原始论点、原始论点的立场、从包含关键字的论证序列生成的定义、用于生成的模型、主题（关键字）以及两位注释者的立场和可信度注释。

创建时间：

2025-08-06

原始信息汇总

数据集概述：abortion_definitions_annotations

数据集简介

用途：用于生成输出的合理性和立场评估研究。
主题：仅包含关于堕胎主题的论点和定义。
内容：
- 原始论点及其立场
- 从包含关键词的论证序列生成的释义
- 生成模型信息
- 主题（关键词）
- 两名标注者对立场和合理性的标注

数据来源

原始论点：
- Webis args.me 语料库 (Ajjour et al., 2019b)
- IBM Keypoint 数据集 (Friedman et al., 2021)
生成模型：

模型名称	训练数据
LT3/definitions-oxford-llama-8B-instruct	Oxford
LT3/definitions-all-noslang-llama-8B-instruct	WordNet, Wiki, Oxford
LT3/definitions-all-llama-8B-instruct	WordNet, Wiki, Oxford, Urban
LT3/definitions-wordnet-llama-8B-instruct	WordNet
LT3/definitions-slang-llama-8B-instruct	Urban

使用方法

提供Python代码用于从原始论点中提取用于生成定义的论证序列。

引用信息

bibtex @inproceedings{evgrafova-etal-2025-stance, title = "Stance-aware Definition Generation for Argumentative Texts", author = "Evgrafova, Natalia and De Langhe, Loic and Hoste, Veronique and Lefever, Els ", editor = "Chistova, Elena and Cimiano, Philipp and Haddadan, Shohreh and Lapesa, Gabriella and Ruiz-Dolz, Ramon", booktitle = "Proceedings of the 12th Argument mining Workshop", month = jul, year = "2025", address = "Vienna, Austria", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2025.argmining-1.16/", doi = "10.18653/v1/2025.argmining-1.16", pages = "168--180", ISBN = "979-8-89176-258-9", abstract = "Definition generation models trained on dictionary data are generally expected to produce neutral and unbiased output while capturing the contextual nuances. However, previous studies have shown that generated definitions can inherit biases from both the underlying models and the input context. This paper examines the extent to which stance-related bias in argumentative data influences the generated definitions. In particular, we train a model on a slang-based dictionary to explore the feasibility of generating persuasive definitions that concisely reflect opposing parties understandings of contested terms. Through this study, we provide new insights into bias propagation in definition generation and its implications for definition generation applications and argument mining." }

搜集汇总

数据集介绍

构建方式

在论证文本生成领域，abortion_definitions_annotations数据集通过系统化标注流程构建而成。研究团队从Webis args.me语料库和IBM关键点数据集中选取原始论点，利用五种基于不同训练数据的Llama-8B指令微调模型生成定义文本。标注过程中，两位专业标注员对每个生成定义进行了立场倾向性和合理性双重标注，确保数据质量。数据集聚焦堕胎议题，完整保留了原始论点的立场信息、生成模型类型以及关键词主题等元数据。

使用方法

使用该数据集时，研究者可通过提供的Python工具函数提取原始论点中包含关键词的论证片段，这是定义生成的基础输入。数据集支持多种分析维度：既可评估不同模型在相同论点下的生成表现，也能探究训练数据源对定义立场的影响。配套的BibTeX引用信息方便学术规范使用。对于论证生成系统的开发，该数据集能有效支撑立场一致性、内容合理性等关键指标的评测工作。

背景与挑战

背景概述

abortion_definitions_annotations数据集诞生于2025年，由Natalia Evgrafova等学者在第十二届Argument mining Workshop上提出，旨在解决论证文本中立场感知的定义生成问题。该数据集基于Webis args.me和IBM Keypoint Dataset的原始论点，利用多种预训练模型生成定义，并标注了立场和合理性。其核心研究问题聚焦于论证文本中立场偏差对生成定义的影响，为论证挖掘和自然语言处理领域提供了重要的数据支持。该数据集不仅推动了立场感知定义生成的研究，也为探索生成模型中的偏见传播机制提供了新的视角。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，如何准确捕捉和反映论证文本中的立场偏差，并生成既符合语境又保持中立性的定义，是一个复杂的问题。生成的定义需要平衡中立性和立场表达，这对模型的语境理解能力提出了较高要求。在构建过程中，数据标注的一致性是一个显著挑战，两位标注者对立场和合理性的判断可能存在差异，影响数据的可靠性。此外，不同预训练模型（如基于WordNet、Wiki、Oxford等不同训练数据的模型）生成的定于质量参差不齐，如何评估和筛选高质量定义也是一项艰巨任务。

常用场景

经典使用场景

在自然语言处理领域，abortion_definitions_annotations数据集为研究者提供了丰富的标注资源，特别适用于论证文本中定义生成的质量评估。该数据集通过整合来自Webis args.me和IBM Keypoint的原始论点，结合多种语言模型生成的定义，为评估生成文本的合理性和立场倾向性提供了标准化的基准。其经典使用场景包括训练和测试定义生成模型，以及分析不同训练数据对生成定义中立性的影响。

解决学术问题

该数据集有效解决了论证挖掘领域的关键问题，即如何量化评估生成定义的质量和立场倾向。通过提供双标注者的立场和合理性标注，研究者能够深入探讨语言模型在敏感话题如堕胎上的表现，揭示训练数据与生成文本偏见之间的关联。这一资源为研究定义生成中的偏见传播机制提供了实证基础，推动了论证文本生成的可解释性研究。

实际应用

在实际应用中，该数据集支持开发更中立、客观的自动定义生成系统，尤其在法律咨询、政策辩论等需要精确术语解释的场景。教育领域可利用其构建辩论辅助工具，帮助学生理解争议性话题的多方观点。媒体监测机构则可基于该数据集开发偏见检测系统，分析新闻报道中的术语使用倾向。

数据集最近研究