five

ReDUB/ComfyOpenSubtitles

收藏
Hugging Face2023-11-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ReDUB/ComfyOpenSubtitles
下载链接
链接失效反馈
官方服务:
资源简介:
ComfyOpenSubtitles是一个多语言数据集,包含来自不同语言的平行翻译字幕。支持的语言包括英语、俄语、法语、西班牙语、阿拉伯语、简体中文、韩语、日语和德语。数据集的结构包括数据实例、数据字段和数据分割。数据实例展示了输入语言、目标语言、输入文本和输出文本的示例。数据字段包括input_language、target_language、input_text和output_text。数据集通常分为不同大小的训练分割。数据集的创建目的是为研究和自然语言处理任务提供多语言字幕及其翻译的集合。数据源包括各种电影和电视剧的字幕。数据集可能包含电影和电视剧中的文本,这些文本可能涉及个人或敏感信息。此外,数据集中可能存在不准确的数据。

ComfyOpenSubtitles是一个多语言数据集,包含来自不同语言的平行翻译字幕。支持的语言包括英语、俄语、法语、西班牙语、阿拉伯语、简体中文、韩语、日语和德语。数据集的结构包括数据实例、数据字段和数据分割。数据实例展示了输入语言、目标语言、输入文本和输出文本的示例。数据字段包括input_language、target_language、input_text和output_text。数据集通常分为不同大小的训练分割。数据集的创建目的是为研究和自然语言处理任务提供多语言字幕及其翻译的集合。数据源包括各种电影和电视剧的字幕。数据集可能包含电影和电视剧中的文本,这些文本可能涉及个人或敏感信息。此外,数据集中可能存在不准确的数据。
提供机构:
ReDUB
原始信息汇总

ComfyOpenSubtitles

数据集描述

ComfyOpenSubtitles是一个多语言数据集,包含多种语言的平行字幕翻译。它包括输入和目标语言对及其相应的字幕。

语言

数据集支持以下语言:

  • 英语 (en)
  • 俄语 (ru)
  • 法语 (fr)
  • 西班牙语 (es)
  • 阿拉伯语 (ar)
  • 简体中文 (zh-cn)
  • 韩语 (ko)
  • 日语 (ja)
  • 德语 (de)

数据集结构

数据实例

以下是一些数据实例的示例:

  • 输入语言:英语 目标语言:俄语 输入文本:"Oh, bud... what have you done?" 输出文本:"Эх, Кореш... Что ж вы наделали?"

  • 输入语言:西班牙语 目标语言:法语 输入文本:"This is a beautiful sunset." 输出文本:"Cest un magnifique coucher de soleil."

数据字段

数据集包括每个实例的以下字段:

  • input_language:输入文本的语言。
  • target_language:目标翻译的语言。
  • input_text:源语言的输入文本。
  • output_text:目标语言的相应翻译。

数据分割

数据集通常分为不同大小的训练集。

数据集创建

策划理由

该数据集旨在提供一个多语言的字幕及其翻译集合,用于研究和自然语言处理任务。

源数据

该数据集的源数据包括来自各种电影和电视节目的字幕。

个人和敏感信息

数据集可能包含来自电影和电视节目的文本,这些文本可能包含与这些节目内容相关的个人或敏感信息。

其他已知限制

部分数据可能不准确。请谨慎使用。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作