five

CristinaMierla/PAN12_predatorTask_romanianTranslation

收藏
Hugging Face2024-05-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/CristinaMierla/PAN12_predatorTask_romanianTranslation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于PAN-2012竞赛的训练和测试数据集创建的,主要用于罗马尼亚语的性骚扰预防和捕食者检测。数据集通过自动翻译工具将原始英文对话翻译成罗马尼亚语,并进行了特征提取和情感分析。数据集包含原始翻译数据和经过处理的数据,用于捕食者预测和自动翻译方法的比较。

该数据集是基于PAN-2012竞赛的训练和测试数据集创建的,主要用于罗马尼亚语的性骚扰预防和捕食者检测。数据集通过自动翻译工具将原始英文对话翻译成罗马尼亚语,并进行了特征提取和情感分析。数据集包含原始翻译数据和经过处理的数据,用于捕食者预测和自动翻译方法的比较。
提供机构:
CristinaMierla
原始信息汇总

数据集概述

本数据集是基于PAN-2012竞赛的训练和测试数据集,专注于性骚扰预防和捕食者检测。数据集主要用于罗马尼亚语的捕食者检测和自动翻译方法的比较。

数据集详情

数据集描述

  • 任务类别: 翻译、文本分类
  • 语言: 罗马尼亚语、英语
  • 大小类别: 10K<n<100K

数据集由66927个英文对话组成,其中13186个对话被翻译成罗马尼亚语用于训练。翻译过程中使用了Helsinki-NLP/opus-mt-tc-big-en-ro和GPT 3.5两种模型。

数据集结构

  • 原始数据集: 包含未经预处理的翻译数据
    • chatID (字符串): PAN数据集中相应对话的ID
    • messageID (字符串): 对话中每条消息的ID
    • author (字符串): 加密的作者ID
    • predator (布尔值): 作者是否为捕食者的标志
    • time (字符串): 消息发送的时间
    • textEng (字符串): 原始英文文本
    • textRo (字符串): 使用Helsinki库翻译的罗马尼亚语文本
    • textRo2 (字符串): 使用GPT 3.5翻译的罗马尼亚语文本

数据集用途

  • 罗马尼亚语中的捕食者预测
  • 罗马尼亚语自动翻译方法的比较

数据集创建

源数据

  • 来源: PAN-2012竞赛 - https://pan.webis.de/clef12/pan12-web/sexual-predator-identification.html

数据收集和处理

  • 数据集的翻译和处理使用了Google Colab Notebook,并结合了Helsinki-NLP和GPT 3.5两种翻译模型。

特征提取

  • 为每位作者提取了情感特征,使用了自定义的_EmotionsRo数据集,该数据集基于_Emotions.csv并通过手动翻译创建。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作