MentalManip|精神操纵数据集|对话分析数据集

github2024-06-04 更新2024-06-06 收录

精神操纵

对话分析

下载链接：

https://github.com/audreycs/MentalManip

下载链接

链接失效反馈

资源简介：

该数据集包含了对对话中精神操纵的细粒度分析，提供了三个数据集文件，分别包含详细的对话信息、最终标签以及基于共识和多数投票策略的标注结果。每个数据集文件详细列出了对话的唯一标识符、对话文本、操纵结果、技术结果和脆弱性结果等。

创建时间：

2024-05-24

原始信息汇总

数据集概述

数据集名称

MentalManip: 用于对话中精神操控的细粒度分析的数据集。

数据集来源

该数据集是ACL24接受论文MentalManip: A Dataset For Fine-grained Analysis of Mental Manipulation in Conversations的一部分，旨在解决自然语言处理领域中关于精神操控语言识别的资源和研究稀缺问题。

数据集内容

包含4,000个经过标注的电影对话，用于全面分析精神操控，包括操控技巧和受害者的脆弱性。

数据集结构

mentalmanip_dataset目录下包含以下三个数据集：
1. mentalManip_detailed.csv: 包含每个对话及其三个标注者的详细信息。
2. mentalmanip_con.csv: 使用共识协议策略得到的最终标签。
3. mentalmanip_maj.csv: 使用多数协议策略得到的最终标签。

数据集应用

用于评估和改进模型在识别和分类操控性对话内容方面的性能。

数据集访问

数据集可通过此处获取。

数据集统计分析

提供代码用于生成论文中的统计图表，包括技巧和脆弱性的分布图、情感分数分布图等。

引用信息

引用格式： bibtex @inproceedings{MentalManip, title={MentalManip: A Dataset For Fine-grained Analysis of Mental Manipulation in Conversations}, author={Yuxin Wang, Ivory Yang, Saeed Hassanpour, Soroush Vosoughi}, booktitle={the Association for Computational Linguistics}, year={2024} }

AI搜集汇总

数据集介绍

构建方式

在人际交流中，心理操纵是一种隐蔽且复杂的行为，其识别依赖于对对话上下文的深入理解。MentalManip数据集的构建旨在填补这一领域的研究空白，通过精心挑选和标注的4,000段电影对话，该数据集详细记录了心理操纵的各种技巧及其对受害者的影响。构建过程中，研究团队不仅关注对话内容，还特别强调了操纵技巧与受害者脆弱点的关联，确保数据集能够支持对心理操纵行为的细致分析。

特点

MentalManip数据集的显著特点在于其精细的标注和多维度的分析能力。每段对话不仅被标注了是否包含心理操纵，还详细记录了所使用的操纵技巧和目标受害者的脆弱点。这种多层次的标注使得数据集不仅适用于心理操纵的检测，还能用于深入研究操纵技巧与受害者特征之间的关系。此外，数据集的多样性和真实性确保了其在实际应用中的广泛适用性。

使用方法

使用MentalManip数据集进行研究时，首先需确保环境配置符合要求，包括安装指定的Python包及其版本。数据集的实验代码位于`experiments/`文件夹中，提供了用于操纵检测和技巧与脆弱点分类的具体脚本。用户可以通过提供的示例命令行运行实验，如使用Llama-2-13b模型在零样本提示设置下进行操纵检测。此外，数据集还支持模型微调，以提升对心理操纵内容的识别能力。

背景与挑战

背景概述

在人际交流中，心理操纵是一种显著的滥用形式，其识别因依赖于上下文且往往微妙而具有挑战性。自然语言处理（NLP）领域在识别操纵性语言方面面临资源和研究的匮乏。为填补这一空白，MentalManip数据集应运而生，由4,000个标注的电影对话组成，旨在深入分析心理操纵，识别操纵技巧及其对受害者的影响。该数据集由Yuxin Wang、Ivory Yang、Saeed Hassanpour和Soroush Vosoughi等研究人员于2024年创建，作为ACL'24会议的接受论文，标志着在理解和减轻对话中心理操纵影响方面的重要进展。

当前挑战

MentalManip数据集面临的挑战主要集中在两个方面：一是心理操纵的识别问题，由于其依赖于上下文且表现微妙，现有的领先模型在识别和分类操纵性内容方面表现不足；二是数据集构建过程中的挑战，包括如何准确标注操纵技巧和受害者脆弱性，以及如何通过现有数据集（如心理健康和毒性数据集）进行微调以提升模型性能。尽管尝试通过微调现有数据集来改进模型，但这些努力尚未克服模型在识别操纵性对话方面的局限性。

常用场景

经典使用场景

在自然语言处理领域，MentalManip数据集的经典使用场景主要集中在对话中的心理操纵检测。该数据集通过4,000个标注的电影对话，提供了对心理操纵技术的细致分析，包括操纵手法和目标受害者的脆弱性。研究者可以利用此数据集训练和评估模型，以识别和分类对话中的心理操纵内容，从而提升模型在复杂对话环境中的表现。

衍生相关工作

基于MentalManip数据集，研究者们已经开展了一系列相关工作，包括开发新的心理操纵检测模型和改进现有模型的性能。例如，一些研究通过微调大型语言模型（如Llama-2）来提升其在心理操纵检测任务中的表现。此外，该数据集还激发了对心理操纵行为背后社会和心理机制的进一步探讨，推动了跨学科研究的发展。

数据集最近研究

最新研究方向

在自然语言处理领域，MentalManip数据集的引入为心理操控行为的细粒度分析提供了新的视角。该数据集聚焦于电影对话中的心理操控，通过4000个标注样本，揭示了操控技巧及其对受害者的影响。当前研究前沿主要集中在利用先进模型识别和分类操控性对话，尽管现有模型在处理此类复杂任务时表现不足，但通过微调现有心理健康和毒性数据集，研究者们正努力提升模型的性能。MentalManip的发布不仅填补了该领域的数据空白，还为未来研究提供了基础，有望推动对心理操控行为的深入理解和有效干预。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

YOLO-dataset

该数据集用于训练YOLO模型，包括分类、检测和姿态识别模型。目前支持v8版本，未来计划支持更多版本。

github 收录