Prosocial Conversations for Bridging Benchmark Dataset
收藏arXiv2024-08-02 更新2024-08-06 收录
下载链接:
https://github.com/conversationai/prosocial-comments-bridgingbenchmark/
下载链接
链接失效反馈官方服务:
资源简介:
Prosocial Conversations for Bridging Benchmark Dataset是由佛罗里达大学、SIFT和谷歌Jigsaw合作创建的一个数据集,包含11,973条来自Civil Comments的评论。该数据集专注于标记与建立桥梁相关的社会属性,如疏离、同情、推理、好奇、道德愤怒和尊重。数据集的创建过程采用了创新的、迭代式的注释者参与方法,通过与七名美国注释者的深入合作,不断优化注释定义和过程。该数据集旨在提高机器学习模型对复杂社会概念的理解和处理能力,特别是在理解和促进建设性对话方面。
The Prosocial Conversations for Bridging Benchmark Dataset was collaboratively developed by the University of Florida, SIFT, and Google Jigsaw. It comprises 11,973 comments sourced from the Civil Comments corpus. This dataset centers on annotating socially significant attributes associated with bridge-building discourse, including alienation, sympathy, reasoning, curiosity, moral outrage, and respect. Its construction adopts an innovative, iterative annotator engagement methodology, which was refined through in-depth collaboration with seven U.S. annotators to optimize annotation definitions and procedures. This dataset aims to enhance the capacity of machine learning models to understand and handle complex social concepts, particularly in comprehending and facilitating constructive dialogues.
提供机构:
佛罗里达大学, SIFT, 谷歌Jigsaw
创建时间:
2024-08-02
搜集汇总
数据集介绍

构建方式
该数据集的构建方式采用了创新的协作和迭代注释者参与方法,与流行的匿名群体评分注释过程不同。该方法使用来自美国七个注释者的深入、迭代的参与,以(1)协作地细化要注释的概念的定义,然后(2)迭代地注释复杂的社会概念,包括检查会议和讨论。这种方法解决了当前匿名群体注释工作的某些不足,并以注释者间信度为形式的实证证据展示了我们的注释过程的性能。我们发现,与注释者的协作参与可以增强注释方法,而不是仅仅依赖远程进行的孤立工作。
特点
该数据集的特点包括:(1)包含来自Civil Comments数据集中11,973条文本帖子的评论;(2)注释了六个属性:疏离感、同情、推理、好奇心、道德愤慨和尊重;(3)使用了深入、迭代的注释者参与方法,包括协作地细化概念定义和迭代地注释复杂的社会概念;(4)提供了注释者间信度等实证结果,展示了注释过程的性能。
使用方法
该数据集的使用方法包括:(1)可以使用该数据集进行机器学习模型的训练和评估;(2)可以使用该数据集进行社会概念的研究和分析;(3)可以使用该数据集进行自然语言处理任务的开发和应用。
背景与挑战
背景概述
Prosocial Conversations for Bridging Benchmark Dataset 是由 Sonja Schmer-Galunder、Ruta Wheelock、Scott Friedman 等研究人员于 2024 年创建的。该数据集旨在解决当前注释实践中存在的广泛问题,这些问题会降低数据质量,减少人类视角的多样性,并损害人类福祉。该数据集包含从 Civil Comments 数据集中提取的 11,973 条文本帖子的注释,这些注释与弥合分歧有关。该数据集采用了新颖的协作和迭代注释者参与方法,与七位美国评级员的深入互动,以协作改进待注释概念的定义,并迭代注释复杂的社会概念。这种方法解决了当前匿名众包注释工作的某些不足之处,并提供了实证证据,证明了我们的注释过程的性能。该数据集对弥合分歧、促进积极对话等领域具有重要影响。
当前挑战
该数据集面临的挑战主要包括:1) 构建过程中所遇到的挑战,包括如何确保注释者之间的相互理解和一致性,以及如何处理注释过程中出现的争议和分歧;2) 所解决的领域问题的挑战,例如如何弥合分歧、促进积极对话等。为了应对这些挑战,该数据集采用了新颖的协作和迭代注释者参与方法,以及社会理论来指导概念定义和注释过程,以确保注释质量并提高模型的性能。
常用场景
经典使用场景
Prosocial Conversations for Bridging Benchmark Dataset 数据集主要用于促进构建性对话的研究,特别是在社交媒体和政治论坛等环境中。该数据集包含11,973条文本帖子,涵盖了疏离感、同情心、推理、好奇心、道德愤怒和尊重等六个属性。这些属性有助于研究人员理解不同类型的对话如何影响人们之间的互动,以及如何促进建设性的对话。该数据集的经典使用场景包括对社交媒体帖子、政治论坛和在线评论进行情感分析和对话建模,以识别和促进建设性的对话。
解决学术问题
该数据集解决了当前数据标注实践中存在的一些问题,例如数据质量低下、人类视角的多样性减少以及对人类福祉的损害。通过使用一种新颖的、协作的、迭代的标注者参与方法,该数据集提高了标注质量,并提供了关于如何进行更有效和更高质量的标注的见解。此外,该数据集还为构建性对话的研究提供了新的数据资源,有助于研究人员更好地理解不同类型的对话如何影响人们之间的互动。
衍生相关工作
该数据集的衍生相关工作包括开发更有效的对话建模和情感分析工具,以识别和促进建设性的对话。此外,该数据集还可以用于开发更智能的对话系统和聊天机器人,以帮助人们更好地进行沟通和交流。
以上内容由遇见数据集搜集并总结生成



