Datasets-Conversas

github2020-03-13 更新2024-05-31 收录

下载链接：

https://github.com/Andrijauskas/Datasets-Conversas

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种类型的对话数据，包括有罪对话和无罪对话，数据来源包括私人和公共渠道，数据格式包括文本和音频，并经过特定的隐私保护处理。

This dataset encompasses a variety of dialogue types, including both guilty and innocent conversations. The data is sourced from both private and public channels, and is available in formats such as text and audio. Additionally, it has undergone specific privacy protection processing.

创建时间：

2018-05-29

原始信息汇总

数据集概述

数据集名称

Datasets-Conversas

数据集描述

本数据集是Adriana Andrijauskas在2018年于Centro Universitário FEI完成的科技启动项目“Desenvolvimento de Dataset e Base de Dados em Língua Portuguesa sobre Crimes Sexuais”的成果，由Rodrigo Filev Maia博士指导。数据集主要包含两种类型的对话：有罪对话（涉嫌性侵犯者存在）和无罪对话（无性侵犯者存在，可能涉及性话题或不涉及）。

数据集内容

c_pr: 私人有罪对话，原始格式为文本TXT文件，共43次对话，14756行。通过FEI与联邦公共部（Adriana Shimabukuro）的合作提供。
c_pu: 公开有罪对话，原始格式为打印的屏幕截图，共39次对话，1824行。
c_pu_mod: 修改后的公开有罪对话，基于c_pu数据集，修正了葡萄牙语错误。
i_pu: 公开无罪对话，原始格式为音频，后转录为文本TXT文件，共137次对话，87912行。通过FEI与米纳斯吉拉斯联邦大学的合作提供。

数据集限制

为保护参与者隐私，所有个人识别信息和位置信息已被替换为关联术语，如：

audio< 替换音频文件
emoticon< 替换可能格式错误的表情符号
foto< 替换图片文件
local< 替换城市、州、国家或国籍信息
nome< 替换作者姓名或昵称
telefone< 替换联系方式

数据集结构

所有数据集遵循相同的结构，参考2012年PAN的提议任务结构（https://www.uni-weimar.de/medien/webis/events/pan-12/pan12-web/author-identification.html）。结构描述如下： <banco> <conversa id=“Número da conversa”> <linha num=“Número da linha”> <autor>Nome do autor criptografado em MD5</autor> <mensagem>Mensagem</mensagem> </linha> … <linha num=“Número da linha”> <autor>Nome do autor criptografado em MD5</autor> <mensagem>Mensagem</mensagem> </linha> </conversa> … <conversa id=“Número da conversa”> <linha num=“Número da linha”> <autor>Nome do autor criptografado em MD5</autor> <mensagem>Mensagem</mensagem> </linha> … <linha num=“Número da linha”> <autor>Nome do autor criptografado em MD5</autor> <mensagem>Mensagem</mensagem> </linha> </conversa> </banco>

搜集汇总

数据集介绍

构建方式

Datasets-Conversas乃一份专注于犯罪性对话的语料库，其构建过程始于2018年，由Adriana Andrijauskas在FEI大学中心的指导下完成。数据集涵盖了两类对话：涉嫌犯罪的对话（分为私人和公共）和无罪对话（仅公共）。私人犯罪对话来源于MPF的协作，经严格保密处理，确保参与者隐私。公共对话则包括文本和修改后的版本，以及通过转录得到的无罪公共对话。所有对话均遵循PAN数据结构的规范，采用XML格式存储，作者名称通过MD5加密以确保匿名性。

特点

该数据集显著的特点在于其内容的敏感性及所采取的隐私保护措施。它不仅提供了不同类型（犯罪与否、私人或公共）的对话，还特别对犯罪对话中的公共版本进行了语言修正，以供研究之用。所有数据均遵循统一的结构标准，便于分析和比较，同时，对话内容的匿名化处理，保障了参与者的信息安全。

使用方法

使用Datasets-Conversas时，研究者应首先熟悉XML格式的数据结构，并注意数据的使用需遵循相关的隐私保护规定。数据集可以直接用于文本分析和机器学习模型的训练，特别是在犯罪检测和语言模型领域。用户需确保在使用过程中对数据的引用和处理符合伦理和法律规定，尊重个人隐私。

背景与挑战

背景概述

Datasets-Conversas是一组关于对话的数据集，其创建源于Adriana Andrijauskas在2018年于Centro Universitário FEI完成的技术启动项目，项目名为“Desenvolvimento de Dataset e Base de Dados em Língua Portuguesa sobre Crimes Sexuais”，由教授Rodrigo Filev Maia指导。该数据集旨在为性犯罪研究领域提供葡萄牙语对话数据，包含有罪对话（高度疑似存在性猎食者的对话）和无罪对话（不存在性猎食者的对话）。数据集的构建未使用任何司法命令，而是通过FEI与联邦检察官办公室的合作获取数据，并在保证参与者隐私的前提下进行处理。

当前挑战

该数据集在构建过程中面临了多重挑战，首先是对话数据的收集，需要在确保隐私和合法性的基础上进行。其次，数据集中对话的分类，即区分有罪和无罪对话，需要高度精确和客观的标准。此外，数据集在构建时还必须处理数据清洗、标准化和格式化等问题，以确保数据的质量和可用性。在研究领域中，如何利用这些数据集有效识别性猎食者，并在此基础上发展预防策略，也是当前面临的挑战之一。

常用场景

经典使用场景

Datasets-Conversas被广泛运用于对话系统的训练与评估，特别是在构建能够识别并处理性犯罪相关对话的智能系统方面。该数据集通过提供大量标注为有罪和无罪的对话实例，为模型训练提供了丰富的学习素材，从而使得模型能够准确区分犯罪倾向的对话内容。

实际应用

在现实应用中，Datasets-Conversas能够辅助开发监控网络通信的应用程序，帮助识别和拦截潜在的性犯罪行为。此外，该数据集还可以用于教育和培训，提升公众对于性犯罪的认识和防范意识。

衍生相关工作

基于该数据集，已经衍生出多项相关工作，包括但不限于构建更高效的犯罪检测算法、开展网络犯罪行为的心理学研究以及推动相关法律法规的完善。这些工作不仅促进了学术研究的深入，也为社会的网络安全和公共安全提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集