CristinaMierla/PAN12_predatorTask_romanianTranslation
收藏Hugging Face2024-05-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/CristinaMierla/PAN12_predatorTask_romanianTranslation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于PAN-2012竞赛的训练和测试数据集创建的,主要用于罗马尼亚语的性骚扰预防和捕食者检测。数据集通过自动翻译工具将原始英文对话翻译成罗马尼亚语,并进行了特征提取和情感分析。数据集包含原始翻译数据和经过处理的数据,用于捕食者预测和自动翻译方法的比较。
该数据集是基于PAN-2012竞赛的训练和测试数据集创建的,主要用于罗马尼亚语的性骚扰预防和捕食者检测。数据集通过自动翻译工具将原始英文对话翻译成罗马尼亚语,并进行了特征提取和情感分析。数据集包含原始翻译数据和经过处理的数据,用于捕食者预测和自动翻译方法的比较。
提供机构:
CristinaMierla
原始信息汇总
数据集概述
本数据集是基于PAN-2012竞赛的训练和测试数据集,专注于性骚扰预防和捕食者检测。数据集主要用于罗马尼亚语的捕食者检测和自动翻译方法的比较。
数据集详情
数据集描述
- 任务类别: 翻译、文本分类
- 语言: 罗马尼亚语、英语
- 大小类别: 10K<n<100K
数据集由66927个英文对话组成,其中13186个对话被翻译成罗马尼亚语用于训练。翻译过程中使用了Helsinki-NLP/opus-mt-tc-big-en-ro和GPT 3.5两种模型。
数据集结构
- 原始数据集: 包含未经预处理的翻译数据
- chatID (字符串): PAN数据集中相应对话的ID
- messageID (字符串): 对话中每条消息的ID
- author (字符串): 加密的作者ID
- predator (布尔值): 作者是否为捕食者的标志
- time (字符串): 消息发送的时间
- textEng (字符串): 原始英文文本
- textRo (字符串): 使用Helsinki库翻译的罗马尼亚语文本
- textRo2 (字符串): 使用GPT 3.5翻译的罗马尼亚语文本
数据集用途
- 罗马尼亚语中的捕食者预测
- 罗马尼亚语自动翻译方法的比较
数据集创建
源数据
- 来源: PAN-2012竞赛 - https://pan.webis.de/clef12/pan12-web/sexual-predator-identification.html
数据收集和处理
- 数据集的翻译和处理使用了Google Colab Notebook,并结合了Helsinki-NLP和GPT 3.5两种翻译模型。
特征提取
- 为每位作者提取了情感特征,使用了自定义的_EmotionsRo数据集,该数据集基于_Emotions.csv并通过手动翻译创建。



