five

Iker/Reddit-Post-Translation

收藏
Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Iker/Reddit-Post-Translation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于机器翻译的Reddit帖子翻译数据集,包含约15K条从SophieTr/reddit_clean中检索的Reddit帖子,并使用GPT-4将其翻译成西班牙语。数据集的特点是专注于互联网上的非正式文本,特别是Reddit帖子,以弥补大多数机器翻译数据集基于正式文本的不足。数据集包含id、英语文本(en)和西班牙语文本(es)三个字段,训练集大小为46,255,558字节,包含15,203个样本。需要注意的是,数据集可能包含偏见、NSFW内容、粗俗语言等不安全内容。

该数据集是一个用于机器翻译的Reddit帖子翻译数据集,包含约15K条从SophieTr/reddit_clean中检索的Reddit帖子,并使用GPT-4将其翻译成西班牙语。数据集的特点是专注于互联网上的非正式文本,特别是Reddit帖子,以弥补大多数机器翻译数据集基于正式文本的不足。数据集包含id、英语文本(en)和西班牙语文本(es)三个字段,训练集大小为46,255,558字节,包含15,203个样本。需要注意的是,数据集可能包含偏见、NSFW内容、粗俗语言等不安全内容。
提供机构:
Iker
原始信息汇总

数据集概述

基本信息

  • 名称: Reddit Post Translation
  • 语言: 英语(en)、西班牙语(es)
  • 许可证: Apache-2.0
  • 任务类别: 翻译
  • 标签: Reddit, 合成数据

数据集特征

  • id: 整数类型(int64)
  • en: 字符串类型(string),代表英语文本
  • es: 字符串类型(string),代表西班牙语文本

数据集分割

  • 训练集:
    • 样本数量: 15203
    • 数据大小: 46255558字节
    • 下载大小: 28613258字节

警告

  • 数据集包含来自Reddit的随机帖子,可能包含偏激的政治观点、不适当内容、粗鲁语言及其他不安全内容。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作