five

abortion_definitions_annotations

收藏
Hugging Face2025-08-08 更新2025-08-09 收录
下载链接:
https://huggingface.co/datasets/LT3/abortion_definitions_annotations
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含关于“堕胎”主题的原始论点、原始论点的立场、从包含关键字的论证序列生成的定义、用于生成的模型、主题(关键字)以及两位注释者的立场和可信度注释。
创建时间:
2025-08-06
原始信息汇总

数据集概述:abortion_definitions_annotations

数据集简介

  • 用途:用于生成输出的合理性和立场评估研究。
  • 主题:仅包含关于堕胎主题的论点和定义。
  • 内容
    • 原始论点及其立场
    • 从包含关键词的论证序列生成的释义
    • 生成模型信息
    • 主题(关键词)
    • 两名标注者对立场和合理性的标注

数据来源

  • 原始论点
    • Webis args.me 语料库 (Ajjour et al., 2019b)
    • IBM Keypoint 数据集 (Friedman et al., 2021)
  • 生成模型
模型名称 训练数据
LT3/definitions-oxford-llama-8B-instruct Oxford
LT3/definitions-all-noslang-llama-8B-instruct WordNet, Wiki, Oxford
LT3/definitions-all-llama-8B-instruct WordNet, Wiki, Oxford, Urban
LT3/definitions-wordnet-llama-8B-instruct WordNet
LT3/definitions-slang-llama-8B-instruct Urban

使用方法

提供Python代码用于从原始论点中提取用于生成定义的论证序列。

引用信息

bibtex @inproceedings{evgrafova-etal-2025-stance, title = "Stance-aware Definition Generation for Argumentative Texts", author = "Evgrafova, Natalia and De Langhe, Loic and Hoste, Veronique and Lefever, Els ", editor = "Chistova, Elena and Cimiano, Philipp and Haddadan, Shohreh and Lapesa, Gabriella and Ruiz-Dolz, Ramon", booktitle = "Proceedings of the 12th Argument mining Workshop", month = jul, year = "2025", address = "Vienna, Austria", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2025.argmining-1.16/", doi = "10.18653/v1/2025.argmining-1.16", pages = "168--180", ISBN = "979-8-89176-258-9", abstract = "Definition generation models trained on dictionary data are generally expected to produce neutral and unbiased output while capturing the contextual nuances. However, previous studies have shown that generated definitions can inherit biases from both the underlying models and the input context. This paper examines the extent to which stance-related bias in argumentative data influences the generated definitions. In particular, we train a model on a slang-based dictionary to explore the feasibility of generating persuasive definitions that concisely reflect opposing parties understandings of contested terms. Through this study, we provide new insights into bias propagation in definition generation and its implications for definition generation applications and argument mining." }

搜集汇总
数据集介绍
main_image_url
构建方式
在论证文本生成领域,abortion_definitions_annotations数据集通过系统化标注流程构建而成。研究团队从Webis args.me语料库和IBM关键点数据集中选取原始论点,利用五种基于不同训练数据的Llama-8B指令微调模型生成定义文本。标注过程中,两位专业标注员对每个生成定义进行了立场倾向性和合理性双重标注,确保数据质量。数据集聚焦堕胎议题,完整保留了原始论点的立场信息、生成模型类型以及关键词主题等元数据。
使用方法
使用该数据集时,研究者可通过提供的Python工具函数提取原始论点中包含关键词的论证片段,这是定义生成的基础输入。数据集支持多种分析维度:既可评估不同模型在相同论点下的生成表现,也能探究训练数据源对定义立场的影响。配套的BibTeX引用信息方便学术规范使用。对于论证生成系统的开发,该数据集能有效支撑立场一致性、内容合理性等关键指标的评测工作。
背景与挑战
背景概述
abortion_definitions_annotations数据集诞生于2025年,由Natalia Evgrafova等学者在第十二届Argument mining Workshop上提出,旨在解决论证文本中立场感知的定义生成问题。该数据集基于Webis args.me和IBM Keypoint Dataset的原始论点,利用多种预训练模型生成定义,并标注了立场和合理性。其核心研究问题聚焦于论证文本中立场偏差对生成定义的影响,为论证挖掘和自然语言处理领域提供了重要的数据支持。该数据集不仅推动了立场感知定义生成的研究,也为探索生成模型中的偏见传播机制提供了新的视角。
当前挑战
该数据集面临的挑战主要体现在两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,如何准确捕捉和反映论证文本中的立场偏差,并生成既符合语境又保持中立性的定义,是一个复杂的问题。生成的定义需要平衡中立性和立场表达,这对模型的语境理解能力提出了较高要求。在构建过程中,数据标注的一致性是一个显著挑战,两位标注者对立场和合理性的判断可能存在差异,影响数据的可靠性。此外,不同预训练模型(如基于WordNet、Wiki、Oxford等不同训练数据的模型)生成的定于质量参差不齐,如何评估和筛选高质量定义也是一项艰巨任务。
常用场景
经典使用场景
在自然语言处理领域,abortion_definitions_annotations数据集为研究者提供了丰富的标注资源,特别适用于论证文本中定义生成的质量评估。该数据集通过整合来自Webis args.me和IBM Keypoint的原始论点,结合多种语言模型生成的定义,为评估生成文本的合理性和立场倾向性提供了标准化的基准。其经典使用场景包括训练和测试定义生成模型,以及分析不同训练数据对生成定义中立性的影响。
解决学术问题
该数据集有效解决了论证挖掘领域的关键问题,即如何量化评估生成定义的质量和立场倾向。通过提供双标注者的立场和合理性标注,研究者能够深入探讨语言模型在敏感话题如堕胎上的表现,揭示训练数据与生成文本偏见之间的关联。这一资源为研究定义生成中的偏见传播机制提供了实证基础,推动了论证文本生成的可解释性研究。
实际应用
在实际应用中,该数据集支持开发更中立、客观的自动定义生成系统,尤其在法律咨询、政策辩论等需要精确术语解释的场景。教育领域可利用其构建辩论辅助工具,帮助学生理解争议性话题的多方观点。媒体监测机构则可基于该数据集开发偏见检测系统,分析新闻报道中的术语使用倾向。
数据集最近研究
最新研究方向
在计算语言学和论证挖掘领域,abortion_definitions_annotations数据集为研究者提供了探索立场感知定义生成的新视角。该数据集聚焦极具争议性的堕胎议题,通过整合来自Webis args.me和IBM Keypoint的原始论据,结合四种基于不同训练数据的LLaMA-8B变体生成的定义,为研究语境化定义生成中的立场偏差传播机制提供了重要实验基础。当前前沿研究主要关注生成定义的可信度评估框架构建,以及多源训练数据对定义中立性的影响规律。特别是在论证挖掘任务中,该数据集支持研究者开发能够识别隐含立场倾向的定义生成模型,这对提升辩论系统的事实性和说服力具有重要价值。随着大语言模型在敏感社会议题中的应用日益广泛,该数据集为检测和缓解生成内容中的立场偏见提供了标准化的评估基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作