Peer Review Toxic Detection Dataset
收藏arXiv2025-02-02 更新2025-02-11 收录
下载链接:
https://github.com/luomancs/toxic-peer-review-detection.git
下载链接
链接失效反馈官方服务:
资源简介:
本研究团队定义了同行评审中 toxic sentences 的四种特征,并从 OpenReview 平台收集评审,由专家根据这些定义进行标注,创建了一个用于检测同行评审中 toxic sentences 的 benchmark 数据集。该数据集包含313个句子,经过严格的两次人类标注流程以确保可靠性。数据集可用于检测模型在识别同行评审中的毒性内容的能力,旨在为构建健康、负责任的建设性学术讨论和科学合作环境做出贡献。
The research team defined four characteristics of toxic sentences in peer reviews, collected peer reviews from the OpenReview platform, and created a benchmark dataset for detecting toxic sentences in peer reviews, which was annotated by experts in accordance with these defined characteristics. This dataset contains 313 sentences and underwent a rigorous two-stage human annotation process to ensure annotation reliability. It can be used to evaluate a model's ability to identify toxic content in peer reviews, and aims to contribute to the establishment of a healthy, responsible and constructive environment for academic discussions and scientific collaboration.
提供机构:
英特尔实验室, 亚利桑那州立大学, 梅奥诊所
创建时间:
2025-02-02
搜集汇总
数据集介绍

构建方式
Peer Review Toxic Detection Dataset的构建始于对OpenReview平台上同行评审的广泛收集,这些评审跨越了2018年至2023年间的47个独特会议和研讨会,总计50,108条评审。为了确保数据集的质量,研究团队随机选择了1,495条评审进行人工标注。在标注过程中,首先由五名本科生计算机专业学生识别潜在的毒性句子,随后由三名资深研究人员对这些句子进行进一步判断。为了确保数据集的可靠性,标注过程分为两个阶段,每个阶段都包括独立的判断和标注者之间的讨论。最终,只有所有标注者都同意的句子被纳入测试集,共包含313个句子,其中131个为毒性句子,182个为非毒性句子。
特点
Peer Review Toxic Detection Dataset的主要特点包括其对同行评审中潜在毒性句子的广泛收集和严格的人工标注。该数据集定义了四种潜在的毒性句子特征:情感性评论、缺乏建设性反馈、人身攻击和过度负面。此外,该数据集还探索了不同提示粒度对模型性能的影响,并展示了最先进的LLM(如GPT-4)在不同提示下的性能变化。该数据集还包含了一个毒性句子修订的案例研究,表明LLM在重写毒性句子以保持原始批评的同时,能够减少毒性。
使用方法
使用Peer Review Toxic Detection Dataset,研究人员可以评估各种模型在检测同行评审中毒性句子方面的性能。该数据集可以用于基准测试现有的毒性检测模型、情感分析模型和大型语言模型(LLM),以了解它们在同行评审上下文中的表现。此外,该数据集还可以用于开发新的模型或改进现有模型,以提高它们在检测同行评审中毒性内容方面的能力。
背景与挑战
背景概述
在科学研究中,同行评审是推动科学进步的重要环节。然而,同行评审中出现的恶意反馈可能会打击作者,阻碍科学进展。为了解决这一问题, Luo Man 等研究人员创建了 Peer Review Toxic Detection Dataset 数据集。该数据集收集了 OpenReview 平台上的同行评审,并由人类专家根据四种毒性定义进行了标注。研究人员利用该数据集对多种模型进行了基准测试,包括专门的毒性检测模型、情感分析模型和大型语言模型。实验结果表明,现有毒性检测模型难以准确识别同行评审中的毒性内容,而情感分析模型在某种程度上与人类判断更为一致。此外,封闭源模型(特别是 GPT-4)在毒性检测方面表现出色。该数据集和相关研究对于构建一个健康、负责任的学术交流和科学合作环境具有重要意义。
当前挑战
Peer Review Toxic Detection Dataset 数据集和相关研究面临以下挑战:1) 缺乏对毒性同行评审的正式定义,导致不同研究人员对毒性的理解存在差异;2) 构建过程中需要解决如何定义和识别毒性同行评审的问题;3) 现有毒性检测模型在同行评审领域表现不佳,难以准确识别毒性内容;4) 如何利用大型语言模型进行毒性检测和修订,以构建一个健康、负责任的学术交流和科学合作环境。
常用场景
经典使用场景
该数据集主要用于检测同行评审中的毒性评论。通过对OpenReview平台上的同行评审进行人工标注,数据集涵盖了四种不同的毒性评论类别。研究人员使用该数据集对多种模型进行了基准测试,包括专门用于毒性检测的模型、情感分析模型以及开源和闭源的大型语言模型(LLMs)。实验结果表明,LLMs在简单的提示下与人类判断的匹配度较低,但在详细的指令下,匹配度显著提高。此外,模型的自信评分是判断其与人类判断匹配度的一个良好指标。
解决学术问题
该数据集解决了在同行评审中检测毒性评论的问题。毒性评论可能对作者产生负面影响,阻碍科学进步。通过建立一个高质量的同行评审毒性检测数据集,研究人员旨在促进一个健康和负责任的学术交流环境。该数据集为同行评审中的毒性检测提供了一个基准,有助于评估和改进现有模型的性能。
衍生相关工作
该数据集的发布促进了同行评审毒性检测领域的研究,并衍生出了一系列相关工作。例如,一些研究探讨了如何使用LLMs自动修订毒性评论,以提高同行评审的质量。此外,该数据集还被用于开发新的毒性检测模型,以及评估和改进现有模型的性能。这些相关工作有助于提高同行评审的质量和效率,并促进一个健康和负责任的学术交流环境。
以上内容由遇见数据集搜集并总结生成



