five

different_definitions_annotations

收藏
Hugging Face2025-08-08 更新2025-08-09 收录
下载链接:
https://huggingface.co/datasets/LT3/different_definitions_annotations
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是用于研究生成输出的合理性和立场评估的,包含原始论点、论点立场、从包含关键字的论证序列生成的定义、生成模型、话题(关键字)以及两位注释者的立场和合理性注释。

This dataset is developed for research on the rationality and stance evaluation of generated outputs. It encompasses original arguments, argument stances, definitions generated from keyword-containing argument sequences, generative models, topics (keywords), as well as stance and rationality annotations provided by two annotators.
创建时间:
2025-08-06
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 用途: 用于生成定义的可信度和立场评估研究

数据集内容

  • 原始论点来源:
    • Webis args.me corpus (Ajjour et al., 2019b)
    • IBM Keypoint Dataset (Friedman et al., 2021)
  • 包含字段:
    • 原始论点
    • 原始论点的立场
    • 从包含关键词的论证序列生成的定义
    • 生成模型
    • 主题(关键词)
    • 两名标注者的立场和可信度标注

生成模型

模型名称 训练数据
LT3/definitions-oxford-llama-8B-instruct Oxford
LT3/definitions-all-noslang-llama-8B-instruct WordNet, Wiki, Oxford
LT3/definitions-all-llama-8B-instruct WordNet, Wiki, Oxford, Urban
LT3/definitions-wordnet-llama-8B-instruct WordNet
LT3/definitions-slang-llama-8B-instruct Urban

使用方法

提供Python代码用于从原始论点中提取用于生成定义的论证序列。

引用信息

bibtex @inproceedings{evgrafova-etal-2025-stance, title = "Stance-aware Definition Generation for Argumentative Texts", author = "Evgrafova, Natalia and De Langhe, Loic and Hoste, Veronique and Lefever, Els ", editor = "Chistova, Elena and Cimiano, Philipp and Haddadan, Shohreh and Lapesa, Gabriella and Ruiz-Dolz, Ramon", booktitle = "Proceedings of the 12th Argument mining Workshop", month = jul, year = "2025", address = "Vienna, Austria", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2025.argmining-1.16/", doi = "10.18653/v1/2025.argmining-1.16", pages = "168--180", ISBN = "979-8-89176-258-9", abstract = "Definition generation models trained on dictionary data are generally expected to produce neutral and unbiased output while capturing the contextual nuances. However, previous studies have shown that generated definitions can inherit biases from both the underlying models and the input context. This paper examines the extent to which stance-related bias in argumentative data influences the generated definitions. In particular, we train a model on a slang-based dictionary to explore the feasibility of generating persuasive definitions that concisely reflect opposing parties understandings of contested terms. Through this study, we provide new insights into bias propagation in definition generation and its implications for definition generation applications and argument mining." }

搜集汇总
数据集介绍
main_image_url
构建方式
在论证性文本生成领域,该数据集通过系统化的标注流程构建而成。研究人员从Webis args.me语料库和IBM关键点数据集中选取原始论点,利用五种基于不同训练数据的Llama-8B指令微调模型生成定义。每个数据样本包含原始论点及其立场、生成的定义、生成模型信息以及主题关键词,最后由两位标注员对生成的立场和合理性进行双重标注,确保数据的可靠性和一致性。
使用方法
使用该数据集时,研究人员可通过提供的Python工具函数提取论点文本中包含关键词的论证片段,该功能支持最大256字符的截断处理。数据集支持两种主要研究路径:一方面可分析不同训练数据对生成定义立场倾向的影响,另一方面能评估生成定义的语境合理性。为保持研究一致性,建议使用数据集内置的标注结果作为基准,同时结合原始论点立场进行交叉验证。
背景与挑战
背景概述
different_definitions_annotations数据集诞生于2025年,由Natalia Evgrafova等学者在第十二届Argument Mining Workshop上首次提出,旨在探究立场感知的定义生成模型在论证性文本中的应用。该数据集基于Webis args.me和IBM Keypoint两大权威论证语料库构建,通过四种不同训练数据配置的Llama-8B模型生成定义,重点关注生成定义的可信度与立场标注。作为论证挖掘与自然语言生成交叉领域的重要资源,该数据集为研究语境敏感的定义生成及立场偏差传播机制提供了实证基础,推动了可解释性论证分析的发展。
当前挑战
该数据集面临的核心挑战体现在语义评估与数据构建两个维度。在领域问题层面,需解决论证性语境下定义生成的立场一致性难题,即如何准确评估生成定义与原始论证立场的内在逻辑关联;同时,多源训练数据导致的语义风格混杂现象增加了 plausibility 判定的复杂性。在构建过程中,跨语料库的论证结构异质性要求精细的序列提取策略,而人工标注阶段需协调立场标注的主观差异性,这对标注协议设计提出了更高要求。模型层面,不同训练数据配置产生的输出偏差需要设计对照实验进行有效隔离。
常用场景
经典使用场景
在自然语言处理领域,different_definitions_annotations数据集为研究者提供了丰富的标注资源,特别适用于评估生成定义的可信度和立场倾向。该数据集整合了来自Webis args.me和IBM Keypoint Dataset的原始论点,结合多种模型生成的定义,为研究论证性文本中的定义生成提供了标准化的评估基准。
解决学术问题
该数据集有效解决了论证性文本中定义生成的立场偏差检测和可信度评估等关键学术问题。通过对比不同训练数据(如牛津词典、WordNet、维基百科等)的模型输出,研究者能够深入探究语言模型在定义生成过程中如何继承或放大原始论点的立场倾向,为消除生成文本的偏见提供了实证基础。
实际应用
在实际应用中,该数据集可广泛应用于自动摘要系统、辩论辅助工具和立场检测平台的开发。教育机构可利用其构建论证写作指导系统,帮助学习者识别定义中的隐含立场;社交媒体平台则能基于该数据集开发内容审核工具,检测带有偏见的术语解释。
数据集最近研究
最新研究方向
在论证文本生成领域,different_definitions_annotations数据集为研究者提供了丰富的立场感知定义生成标注资源。该数据集融合了来自Webis args.me和IBM Keypoint两大权威论辩语料库的原始论点,通过四种不同训练数据配置的Llama-8B模型生成定义,并包含双标注者的合理性与立场标注。当前研究聚焦于探索生成定义中立场偏差的传播机制,特别是在使用俚语词典训练的模型生成具有说服力定义时的表现。这项研究不仅推动了论证挖掘领域对语境敏感定义生成的理解,也为自然语言处理中的偏见控制研究提供了新的实验范式。数据集的应用价值体现在其为论证质量评估、立场检测以及多视角定义生成等前沿课题提供了基准测试平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作