CristinaMierla/PAN12_predatorTask_romanianTranslation

Name: CristinaMierla/PAN12_predatorTask_romanianTranslation
Creator: CristinaMierla
Published: 2024-05-17 16:29:47
License: 暂无描述

Hugging Face2024-05-17 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/CristinaMierla/PAN12_predatorTask_romanianTranslation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于PAN-2012竞赛的训练和测试数据集创建的，主要用于罗马尼亚语的性骚扰预防和捕食者检测。数据集通过自动翻译工具将原始英文对话翻译成罗马尼亚语，并进行了特征提取和情感分析。数据集包含原始翻译数据和经过处理的数据，用于捕食者预测和自动翻译方法的比较。

提供机构：

CristinaMierla

原始信息汇总

本数据集是基于PAN-2012竞赛的训练和测试数据集，专注于性骚扰预防和捕食者检测。数据集主要用于罗马尼亚语的捕食者检测和自动翻译方法的比较。

数据集由66927个英文对话组成，其中13186个对话被翻译成罗马尼亚语用于训练。翻译过程中使用了Helsinki-NLP/opus-mt-tc-big-en-ro和GPT 3.5两种模型。

原始数据集: 包含未经预处理的翻译数据
- chatID (字符串): PAN数据集中相应对话的ID
- messageID (字符串): 对话中每条消息的ID
- author (字符串): 加密的作者ID
- predator (布尔值): 作者是否为捕食者的标志
- time (字符串): 消息发送的时间
- textEng (字符串): 原始英文文本
- textRo (字符串): 使用Helsinki库翻译的罗马尼亚语文本
- textRo2 (字符串): 使用GPT 3.5翻译的罗马尼亚语文本

来源: PAN-2012竞赛 - https://pan.webis.de/clef12/pan12-web/sexual-predator-identification.html

5,000+

优质数据集

54 个

任务类型

进入经典数据集