five

webis/Touche23-ValueEval

收藏
Hugging Face2023-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/webis/Touche23-ValueEval
下载链接
链接失效反馈
官方服务:
资源简介:
Touché23-ValueEval数据集包含9324个来自六个不同来源的论点。每个论点都有唯一的标识符、结论、立场、前提和标签。标签基于Kiesel等人2022年发布的价值分类法。数据集主要用于人类价值检测任务,支持多标签分类和零样本分类。数据集的语言主要是英语,但部分元数据包含原始语言的信息。

The Touché23-ValueEval dataset consists of 9,324 arguments from six distinct sources. Each argument has a unique identifier, conclusion, stance, premise, and label. The labels are based on the value taxonomy published by Kiesel et al. in 2022. This dataset is primarily designed for the human value detection task, supporting both multi-label classification and zero-shot classification. The primary language of the dataset is English, while some of its metadata contains information related to the original languages of the arguments.
提供机构:
webis
原始信息汇总

数据集概述

数据集名称

  • 名称: The Touché23-ValueEval Dataset
  • 别名: Human Value Detection Dataset

数据集基本信息

  • 许可: Creative Commons Attribution 4.0 International (CC BY 4.0)
  • 任务类别:
    • text-classification
    • zero-shot-classification
  • 任务ID: multi-label-classification
  • 语言: 英语 (en)
  • 标签:
    • Human Values
    • Value Detection
    • Multi-Label
  • 大小: 1K<n<10K

数据集内容

  • 包含内容: 9324个来自六个不同来源的论点。
  • 来源:
    • A: IBM-ArgQ-Rank-30kArgs
    • C: 知乎
    • D: Group Discussion Ideas (GD IDEAS)
    • E: The Conference for the Future of Europe
    • F: 语言.ml实验室贡献
    • G: The New York Times

数据集结构

  • 论点实例:
    • Argument ID: 唯一标识符
    • Conclusion: 论点结论文本
    • Stance: 论点立场,支持或反对
    • Premise: 论点前提文本
    • Labels: 标签,指示论点是否涉及价值
  • 配置名称:
    • main: 8865个论点,来源为A, D, E
    • nahjalbalagha: 279个论点,来源为F
    • nyt: 80个论点,来源为G
    • zhihu: 100个论点,来源为C

数据集使用

  • 默认配置: main,包含训练集、验证集和测试集。
  • 支持任务: 人类价值检测

语言

  • 论点实例: 仅包含英语文档
  • 元数据实例: 部分数据集部分包含原始语言和措辞

附加信息

  • 许可信息: Creative Commons Attribution 4.0 International (CC BY 4.0)
  • 引用信息: 见数据集详情页面的README文件内容中的引用部分。
搜集汇总
数据集介绍
main_image_url
构建方式
Touché23-ValueEval数据集的构建汇集了来自不同来源的9324个论据,这些来源包括IBM的论据质量数据、中文问答网站知乎、小组讨论想法网站GD IDEAS、欧洲未来会议网站Future of Europe、language.ml实验室提供的《 Nahj al-Balagha》和《Ghurar al-Hikam wa Durar ak-Kalim》文本,以及《纽约时报》。数据集中的标注基于Kiesel等人在ACL'22上发表的价值分类体系。
特点
该数据集的特点在于其多源头的论据收集,涵盖了自我方向、刺激、享乐主义等20个价值类别,并进一步细分为54个人类价值观。所有论据实例均采用英语,且某些元数据实例还提供了原始语言和措辞的信息。数据集的构建不仅关注论据的价值检测,还考虑了论据质量,为研究提供了丰富的多样性。
使用方法
使用Touché23-ValueEval数据集时,用户可以通过HuggingFace的datasets库加载不同的配置,例如默认的'main'配置包含了训练、验证和测试分割,而其他配置如'nahjalbalagha'、'nyt'和'zhihu'则提供了特定来源的测试或验证数据。数据集的使用方法简洁明了,支持通过Python代码片段快速加载和迭代处理论据数据。
背景与挑战
背景概述
Touché23-ValueEval数据集,旨在识别论证背后的价值观,由Webis Group创建于2023年。该数据集汇集了来自不同来源的9324条论证,包括IBM的ArgQ-Rank-30kArgs、中国知乎网站、GD IDEAS、欧洲未来大会、language.ml实验室以及《纽约时报》。数据集的标签基于Kiesel等人在2022年ACL会议论文中提出的价值分类法。此数据集为文本分类和零样本分类任务提供了丰富的资源,对于理解人类论证中的价值取向具有重要研究价值。
当前挑战
在构建Touché23-ValueEval数据集的过程中,研究人员面临了多方面的挑战。首先,不同来源的论证在语言风格和表达上存在差异,为标注和分类带来了困难。其次,价值观的识别和分类是一个主观性较强的任务,需要精确的定义和一致的标注标准。此外,数据集中包含了多种语言和跨文化元素,如何在保持原意的同时进行有效的多语言处理,也是一个亟待解决的问题。
常用场景
经典使用场景
在文本分类与零样本分类任务中,webis/Touche23-ValueEval数据集以其独特的价值检测特性,成为学术研究者的首选。该数据集囊括了9324条论证,覆盖了六个不同来源,通过对论证中的价值观念进行标注,研究者能够训练模型以识别文本背后的价值取向。
实际应用
在实际应用中,webis/Touche23-ValueEval数据集可以被用于开发能够识别和评估文本中价值观念的智能系统,如情感分析工具、内容审核系统等,从而提升文本处理的智能化水平,对社交媒体监控、舆论分析等领域具有显著的应用价值。
衍生相关工作
基于该数据集,已经衍生出多项相关工作,如构建价值检测模型、分析不同文化背景下的价值观念差异等。这些研究进一步拓展了数据集的应用范围,促进了多学科交叉融合,对社会科学、计算语言学等领域产生了深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作