MeToo Corpus

github2024-01-05 更新2024-05-31 收录

下载链接：

https://github.com/amandacurry/metoo_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含聊天机器人对性骚扰提示的标注响应。提示内容由于客户保护未公开。数据集详细记录了特定的工作者/任务ID、问题ID、问题类别、参考话语、生成参考响应的机器人、参考响应的类别等信息。

This dataset contains annotated responses from a chatbot to prompts related to sexual harassment. The content of the prompts is not disclosed due to customer protection. The dataset meticulously records specific worker/task IDs, question IDs, question categories, reference utterances, the bot that generated the reference responses, and the categories of the reference responses, among other details.

创建时间：

2018-06-12

原始信息汇总

MeToo Corpus 数据集概述

数据集内容

MeToo Corpus 包含针对性骚扰提示的聊天机器人标注响应。

数据集结构

_unit_id: 特定的工作者/任务ID
id: 问题ID
question_category: 问题类别（问题内容为顾客数据，不公开）
ref: 参考话语（默认适当性评分100）
bot: 产生参考响应的聊天机器人
response_category: 参考响应的类别
ref1, ref2, ref3: 用户与参考进行比较的响应
bot1, bot2, bot3: 产生相应响应的聊天机器人
rcat1, rcat2, rcat3: 响应的分类
appr1, appr2, appr3: 工作者给出的响应适当性判断
_worker_id, age, country, education, gender: 工作者信息

引用信息

使用此数据集时，请引用以下论文：http://arxiv.org/abs/1909.04387

搜集汇总

数据集介绍

构建方式

MeToo Corpus的构建过程聚焦于收集和标注聊天机器人对性骚扰提示的回应。该数据集通过匿名化处理保护用户隐私，确保提示内容不公开。数据采集涉及多个聊天机器人的响应，并由人工标注者根据回应的适当性进行评分。每个响应均被分类，并与参考响应进行比较，以评估其质量和相关性。

使用方法

使用MeToo Corpus时，研究者可通过分析不同聊天机器人的响应类别和适当性评分，评估其在性骚扰场景下的表现。数据集中的标注者背景信息可用于研究不同人群对响应适当性的主观判断差异。研究者还可通过对比参考响应与其他响应的评分，探索聊天机器人回应的优化方向。使用该数据集时，需引用相关论文以遵循学术规范。

背景与挑战

背景概述

MeToo Corpus数据集于2019年由研究人员创建，旨在探讨聊天机器人在应对性骚扰相关提示时的响应表现。该数据集的核心研究问题聚焦于评估聊天机器人在处理敏感话题时的适当性与有效性。通过收集并标注聊天机器人对性骚扰提示的响应，MeToo Corpus为研究人机交互中的伦理问题提供了重要的数据支持。该数据集在自然语言处理、人工智能伦理以及人机交互领域具有显著影响力，推动了相关领域对聊天机器人行为规范的深入研究。

当前挑战

MeToo Corpus在构建过程中面临多重挑战。首要挑战在于如何确保数据集的隐私保护，由于涉及性骚扰提示，原始问题数据无法公开，这限制了数据集的透明性与可复现性。其次，评估聊天机器人响应的适当性需要依赖人工标注，而标注者的主观判断可能引入偏差，影响数据集的客观性。此外，聊天机器人在处理敏感话题时的表现往往受到文化背景、语言习惯等多重因素的影响，如何在不同语境下保持一致的评估标准也是一个重要挑战。这些挑战不仅影响了数据集的构建过程，也对后续研究提出了更高的要求。

常用场景

经典使用场景

MeToo Corpus数据集在自然语言处理领域中被广泛用于评估和优化聊天机器人对性骚扰相关提示的响应。通过分析不同聊天机器人的回答，研究者能够深入理解机器人在处理敏感话题时的表现，从而提升其对话质量和伦理标准。

解决学术问题

该数据集为解决聊天机器人在处理性骚扰等敏感话题时的伦理和适当性问题提供了重要支持。通过标注和分析不同机器人的回答，研究者能够识别出哪些回答在伦理上更为合适，从而推动对话系统在敏感话题上的技术进步和伦理规范。

实际应用

在实际应用中，MeToo Corpus数据集被用于训练和测试聊天机器人，以确保其在面对性骚扰相关提示时能够提供恰当且符合伦理的回应。这对于提升用户体验、保护用户隐私以及增强机器人在敏感话题上的处理能力具有重要意义。

数据集最近研究