Datasets-Conversas
收藏数据集概述
数据集名称
Datasets-Conversas
数据集描述
本数据集是Adriana Andrijauskas在2018年于Centro Universitário FEI完成的科技启动项目“Desenvolvimento de Dataset e Base de Dados em Língua Portuguesa sobre Crimes Sexuais”的成果,由Rodrigo Filev Maia博士指导。数据集主要包含两种类型的对话:有罪对话(涉嫌性侵犯者存在)和无罪对话(无性侵犯者存在,可能涉及性话题或不涉及)。
数据集内容
- c_pr: 私人有罪对话,原始格式为文本TXT文件,共43次对话,14756行。通过FEI与联邦公共部(Adriana Shimabukuro)的合作提供。
- c_pu: 公开有罪对话,原始格式为打印的屏幕截图,共39次对话,1824行。
- c_pu_mod: 修改后的公开有罪对话,基于c_pu数据集,修正了葡萄牙语错误。
- i_pu: 公开无罪对话,原始格式为音频,后转录为文本TXT文件,共137次对话,87912行。通过FEI与米纳斯吉拉斯联邦大学的合作提供。
数据集限制
为保护参与者隐私,所有个人识别信息和位置信息已被替换为关联术语,如:
-
audio< 替换音频文件
-
emoticon< 替换可能格式错误的表情符号
-
foto< 替换图片文件
-
local< 替换城市、州、国家或国籍信息
-
nome< 替换作者姓名或昵称
-
telefone< 替换联系方式
数据集结构
所有数据集遵循相同的结构,参考2012年PAN的提议任务结构(https://www.uni-weimar.de/medien/webis/events/pan-12/pan12-web/author-identification.html)。结构描述如下: <banco> <conversa id=“Número da conversa”> <linha num=“Número da linha”> <autor>Nome do autor criptografado em MD5</autor> <mensagem>Mensagem</mensagem> </linha> … <linha num=“Número da linha”> <autor>Nome do autor criptografado em MD5</autor> <mensagem>Mensagem</mensagem> </linha> </conversa> … <conversa id=“Número da conversa”> <linha num=“Número da linha”> <autor>Nome do autor criptografado em MD5</autor> <mensagem>Mensagem</mensagem> </linha> … <linha num=“Número da linha”> <autor>Nome do autor criptografado em MD5</autor> <mensagem>Mensagem</mensagem> </linha> </conversa> </banco>




