Helsinki-NLP/open_subtitles

Name: Helsinki-NLP/open_subtitles
Creator: Helsinki-NLP
Published: 2024-01-18 11:11:17
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/Helsinki-NLP/open_subtitles

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: - found language_creators: - found language: - af - ar - bg - bn - br - bs - ca - cs - da - de - el - en - eo - es - et - eu - fa - fi - fr - gl - he - hi - hr - hu - hy - id - is - it - ja - ka - kk - ko - lt - lv - mk - ml - ms - nl - 'no' - pl - pt - ro - ru - si - sk - sl - sq - sr - sv - ta - te - th - tl - tr - uk - ur - vi - zh language_bcp47: - pt-BR - ze-EN - ze-ZH - zh-CN - zh-TW license: - unknown multilinguality: - multilingual size_categories: - 10K<n<100K - 1M<n<10M - n<1K source_datasets: - original task_categories: - translation task_ids: [] paperswithcode_id: opensubtitles pretty_name: OpenSubtitles dataset_info: - config_name: bs-eo features: - name: id dtype: string - name: meta struct: - name: year dtype: uint32 - name: imdbId dtype: uint32 - name: subtitleId struct: - name: bs dtype: uint32 - name: eo dtype: uint32 - name: sentenceIds struct: - name: bs sequence: uint32 - name: eo sequence: uint32 - name: translation dtype: translation: languages: - bs - eo splits: - name: train num_bytes: 1204266 num_examples: 10989 download_size: 333050 dataset_size: 1204266 - config_name: fr-hy features: - name: id dtype: string - name: meta struct: - name: year dtype: uint32 - name: imdbId dtype: uint32 - name: subtitleId struct: - name: fr dtype: uint32 - name: hy dtype: uint32 - name: sentenceIds struct: - name: fr sequence: uint32 - name: hy sequence: uint32 - name: translation dtype: translation: languages: - fr - hy splits: - name: train num_bytes: 132450 num_examples: 668 download_size: 41861 dataset_size: 132450 - config_name: da-ru features: - name: id dtype: string - name: meta struct: - name: year dtype: uint32 - name: imdbId dtype: uint32 - name: subtitleId struct: - name: da dtype: uint32 - name: ru dtype: uint32 - name: sentenceIds struct: - name: da sequence: uint32 - name: ru sequence: uint32 - name: translation dtype: translation: languages: - da - ru splits: - name: train num_bytes: 1082649105 num_examples: 7543012 download_size: 267995167 dataset_size: 1082649105 - config_name: en-hi features: - name: id dtype: string - name: meta struct: - name: year dtype: uint32 - name: imdbId dtype: uint32 - name: subtitleId struct: - name: en dtype: uint32 - name: hi dtype: uint32 - name: sentenceIds struct: - name: en sequence: uint32 - name: hi sequence: uint32 - name: translation dtype: translation: languages: - en - hi splits: - name: train num_bytes: 13845544 num_examples: 93016 download_size: 2967295 dataset_size: 13845544 - config_name: bn-is features: - name: id dtype: string - name: meta struct: - name: year dtype: uint32 - name: imdbId dtype: uint32 - name: subtitleId struct: - name: bn dtype: uint32 - name: is dtype: uint32 - name: sentenceIds struct: - name: bn sequence: uint32 - name: is sequence: uint32 - name: translation dtype: translation: languages: - bn - is splits: - name: train num_bytes: 6371251 num_examples: 38272 download_size: 1411625 dataset_size: 6371251 config_names: - bn-is - bs-eo - da-ru - en-hi - fr-hy --- # Dataset Card for OpenSubtitles ## Table of Contents - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** http://opus.nlpl.eu/OpenSubtitles.php - **Repository:** None - **Paper:** http://www.lrec-conf.org/proceedings/lrec2016/pdf/62_Paper.pdf - **Leaderboard:** [More Information Needed] - **Point of Contact:** [More Information Needed] ### Dataset Summary To load a language pair which isn't part of the config, all you need to do is specify the language code as pairs. You can find the valid pairs in Homepage section of Dataset Description: http://opus.nlpl.eu/OpenSubtitles.php E.g. `dataset = load_dataset("open_subtitles", lang1="fi", lang2="hi")` ### Supported Tasks and Leaderboards [More Information Needed] ### Languages The languages in the dataset are: - af - ar - bg - bn - br - bs - ca - cs - da - de - el - en - eo - es - et - eu - fa - fi - fr - gl - he - hi - hr - hu - hy - id - is - it - ja - ka - kk - ko - lt - lv - mk - ml - ms - nl - no - pl - pt - pt_br: Portuguese (Brazil) (pt-BR) - ro - ru - si - sk - sl - sq - sr - sv - ta - te - th - tl - tr - uk - ur - vi - ze_en: English constituent of Bilingual Chinese-English (subtitles displaying two languages at once, one per line) - ze_zh: Chinese constituent of Bilingual Chinese-English (subtitles displaying two languages at once, one per line) - zh_cn: Simplified Chinese (zh-CN, `zh-Hans`) - zh_tw: Traditional Chinese (zh-TW, `zh-Hant`) ## Dataset Structure ### Data Instances Here are some examples of questions and facts: ### Data Fields [More Information Needed] ### Data Splits [More Information Needed] ## Dataset Creation ### Curation Rationale [More Information Needed] ### Source Data [More Information Needed] #### Initial Data Collection and Normalization [More Information Needed] #### Who are the source language producers? [More Information Needed] ### Annotations [More Information Needed] #### Annotation process [More Information Needed] #### Who are the annotators? [More Information Needed] ### Personal and Sensitive Information [More Information Needed] ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed] ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators [More Information Needed] ### Licensing Information [More Information Needed] ### Citation Information [More Information Needed] ### Contributions Thanks to [@abhishekkrthakur](https://github.com/abhishekkrthakur) for adding this dataset.

标注创建者（annotations_creators）: - 公开获取（found）语言创建者（language_creators）: - 公开获取（found）涉及语言（language）: - 南非语（af） - 阿拉伯语（ar） - 保加利亚语（bg） - 孟加拉语（bn） - 布列塔尼语（br） - 波斯尼亚语（bs） - 加泰罗尼亚语（ca） - 捷克语（cs） - 丹麦语（da） - 德语（de） - 希腊语（el） - 英语（en） - 世界语（eo） - 西班牙语（es） - 爱沙尼亚语（et） - 巴斯克语（eu） - 波斯语（fa） - 芬兰语（fi） - 法语（fr） - 加利西亚语（gl） - 希伯来语（he） - 印地语（hi） - 克罗地亚语（hr） - 匈牙利语（hu） - 亚美尼亚语（hy） - 印尼语（id） - 冰岛语（is） - 意大利语（it） - 日语（ja） - 格鲁吉亚语（ka） - 哈萨克语（kk） - 韩语（ko） - 立陶宛语（lt） - 拉脱维亚语（lv） - 马其顿语（mk） - 马拉雅拉姆语（ml） - 马来语（ms） - 荷兰语（nl） - 挪威语（no） - 波兰语（pl） - 葡萄牙语（pt） - 罗马尼亚语（ro） - 俄语（ru） - 僧伽罗语（si） - 斯洛伐克语（sk） - 斯洛文尼亚语（sl） - 阿尔巴尼亚语（sq） - 塞尔维亚语（sr） - 瑞典语（sv） - 泰米尔语（ta） - 泰卢固语（te） - 泰语（th） - 他加禄语（tl） - 土耳其语（tr） - 乌克兰语（uk） - 乌尔都语（ur） - 越南语（vi） - 中文（zh） BCP-47语言标识（language_bcp47）: - 巴西葡萄牙语（pt-BR） - 中英双语英语分句（ze-EN） - 中英双语汉语分句（ze-ZH） - 简体中文（zh-CN） - 繁体中文（zh-TW）许可证（license）: - 未知（unknown）多语言属性（multilinguality）: - 多语言（multilingual）样本量范围（size_categories）: - 10000 < 样本数 < 100000 - 1000000 < 样本数 < 10000000 - 样本数 < 1000 源数据集（source_datasets）: - 原始数据集（original）任务类别（task_categories）: - 机器翻译（translation）任务子类别（task_ids）: [] PapersWithCode ID（paperswithcode_id）: opensubtitles 展示名称（pretty_name）: OpenSubtitles 数据集信息（dataset_info）: - 配置名称（config_name）: bs-eo 特征（features）: - 标识符（id）: 字符串类型（string） - 元数据（meta）: 结构体 - 年份（year）: 无符号32位整数（uint32） - IMDb编号（imdbId）: 无符号32位整数（uint32） - 字幕ID（subtitleId）: 结构体 - 波斯尼亚语（bs）: 无符号32位整数（uint32） - 世界语（eo）: 无符号32位整数（uint32） - 句子ID（sentenceIds）: 结构体 - 波斯尼亚语（bs）: 无符号32位整数序列 - 世界语（eo）: 无符号32位整数序列 - 翻译对（translation）: 结构体，包含两种语言的译文译文语言（languages）: - bs - eo 数据划分（splits）: - 名称（name）: train 字节数（num_bytes）: 1204266 样本数（num_examples）: 10989 下载大小（download_size）: 333050 数据集大小（dataset_size）: 1204266 - 配置名称（config_name）: fr-hy 特征（features）: - 标识符（id）: 字符串类型（string） - 元数据（meta）: 结构体 - 年份（year）: 无符号32位整数（uint32） - IMDb编号（imdbId）: 无符号32位整数（uint32） - 字幕ID（subtitleId）: 结构体 - 法语（fr）: 无符号32位整数（uint32） - 亚美尼亚语（hy）: 无符号32位整数（uint32） - 句子ID（sentenceIds）: 结构体 - 法语（fr）: 无符号32位整数序列 - 亚美尼亚语（hy）: 无符号32位整数序列 - 翻译对（translation）: 结构体，包含两种语言的译文译文语言（languages）: - fr - hy 数据划分（splits）: - 名称（name）: train 字节数（num_bytes）: 132450 样本数（num_examples）: 668 下载大小（download_size）: 41861 数据集大小（dataset_size）: 132450 - 配置名称（config_name）: da-ru 特征（features）: - 标识符（id）: 字符串类型（string） - 元数据（meta）: 结构体 - 年份（year）: 无符号32位整数（uint32） - IMDb编号（imdbId）: 无符号32位整数（uint32） - 字幕ID（subtitleId）: 结构体 - 丹麦语（da）: 无符号32位整数（uint32） - 俄语（ru）: 无符号32位整数（uint32） - 句子ID（sentenceIds）: 结构体 - 丹麦语（da）: 无符号32位整数序列 - 俄语（ru）: 无符号32位整数序列 - 翻译对（translation）: 结构体，包含两种语言的译文译文语言（languages）: - da - ru 数据划分（splits）: - 名称（name）: train 字节数（num_bytes）: 1082649105 样本数（num_examples）: 7543012 下载大小（download_size）: 267995167 数据集大小（dataset_size）: 1082649105 - 配置名称（config_name）: en-hi 特征（features）: - 标识符（id）: 字符串类型（string） - 元数据（meta）: 结构体 - 年份（year）: 无符号32位整数（uint32） - IMDb编号（imdbId）: 无符号32位整数（uint32） - 字幕ID（subtitleId）: 结构体 - 英语（en）: 无符号32位整数（uint32） - 印地语（hi）: 无符号32位整数（uint32） - 句子ID（sentenceIds）: 结构体 - 英语（en）: 无符号32位整数序列 - 印地语（hi）: 无符号32位整数序列 - 翻译对（translation）: 结构体，包含两种语言的译文译文语言（languages）: - en - hi 数据划分（splits）: - 名称（name）: train 字节数（num_bytes）: 13845544 样本数（num_examples）: 93016 下载大小（download_size）: 2967295 数据集大小（dataset_size）: 13845544 - 配置名称（config_name）: bn-is 特征（features）: - 标识符（id）: 字符串类型（string） - 元数据（meta）: 结构体 - 年份（year）: 无符号32位整数（uint32） - IMDb编号（imdbId）: 无符号32位整数（uint32） - 字幕ID（subtitleId）: 结构体 - 孟加拉语（bn）: 无符号32位整数（uint32） - 冰岛语（is）: 无符号32位整数（uint32） - 句子ID（sentenceIds）: 结构体 - 孟加拉语（bn）: 无符号32位整数序列 - 冰岛语（is）: 无符号32位整数序列 - 翻译对（translation）: 结构体，包含两种语言的译文译文语言（languages）: - bn - is 数据划分（splits）: - 名称（name）: train 字节数（num_bytes）: 6371251 样本数（num_examples）: 38272 下载大小（download_size）: 1411625 数据集大小（dataset_size）: 6371251 配置名称列表（config_names）: - bn-is - bs-eo - da-ru - en-hi - fr-hy --- # OpenSubtitles 数据集卡片 ## 目录 - [数据集描述](#dataset-description) - [数据集概述](#dataset-summary) - [支持任务与排行榜](#supported-tasks-and-leaderboards) - [涉及语言](#languages) - [数据集结构](#dataset-structure) - [数据实例](#data-instances) - [数据字段](#data-fields) - [数据划分](#data-splits) - [数据集构建](#dataset-creation) - [筛选依据](#curation-rationale) - [源数据](#source-data) - [标注信息](#annotations) - [个人与敏感信息](#personal-and-sensitive-information) - [数据使用注意事项](#considerations-for-using-the-data) - [数据集的社会影响](#social-impact-of-dataset) - [偏差讨论](#discussion-of-biases) - [其他已知局限性](#other-known-limitations) - [附加信息](#additional-information) - [数据集维护者](#dataset-curators) - [许可证信息](#licensing-information) - [引用信息](#citation-information) - [贡献声明](#contributions) ## 数据集描述 - **主页：** http://opus.nlpl.eu/OpenSubtitles.php - **代码仓库：** 无 - **论文：** http://www.lrec-conf.org/proceedings/lrec2016/pdf/62_Paper.pdf - **排行榜：** [更多信息待补充] - **联系人：** [更多信息待补充] ### 数据集概述若需加载当前配置未包含的语言对，仅需指定语言代码对即可。可在数据集描述的主页部分查询合法语言对：http://opus.nlpl.eu/OpenSubtitles.php。示例如下： `dataset = load_dataset("open_subtitles", lang1="fi", lang2="hi")` ### 支持任务与排行榜 [更多信息待补充] ### 涉及语言本数据集涵盖以下语言： - 南非语（af） - 阿拉伯语（ar） - 保加利亚语（bg） - 孟加拉语（bn） - 布列塔尼语（br） - 波斯尼亚语（bs） - 加泰罗尼亚语（ca） - 捷克语（cs） - 丹麦语（da） - 德语（de） - 希腊语（el） - 英语（en） - 世界语（eo） - 西班牙语（es） - 爱沙尼亚语（et） - 巴斯克语（eu） - 波斯语（fa） - 芬兰语（fi） - 法语（fr） - 加利西亚语（gl） - 希伯来语（he） - 印地语（hi） - 克罗地亚语（hr） - 匈牙利语（hu） - 亚美尼亚语（hy） - 印尼语（id） - 冰岛语（is） - 意大利语（it） - 日语（ja） - 格鲁吉亚语（ka） - 哈萨克语（kk） - 韩语（ko） - 立陶宛语（lt） - 拉脱维亚语（lv） - 马其顿语（mk） - 马拉雅拉姆语（ml） - 马来语（ms） - 荷兰语（nl） - 挪威语（no） - 波兰语（pl） - 葡萄牙语（pt） - 巴西葡萄牙语（pt-BR） - 罗马尼亚语（ro） - 俄语（ru） - 僧伽罗语（si） - 斯洛伐克语（sk） - 斯洛文尼亚语（sl） - 阿尔巴尼亚语（sq） - 塞尔维亚语（sr） - 瑞典语（sv） - 泰米尔语（ta） - 泰卢固语（te） - 泰语（th） - 他加禄语（tl） - 土耳其语（tr） - 乌克兰语（uk） - 乌尔都语（ur） - 越南语（vi） - 中文（zh） BCP-47语言标识补充： - pt-BR：巴西葡萄牙语 - ze-EN：中英双语字幕中的英语分句（即按行展示双语言字幕时的英语部分） - ze-ZH：中英双语字幕中的汉语分句（即按行展示双语言字幕时的汉语部分） - zh-CN：简体中文（zh-Hans） - zh-TW：繁体中文（zh-Hant） ## 数据集结构 ### 数据实例以下为部分数据实例样例： ### 数据字段 [更多信息待补充] ### 数据划分 [更多信息待补充] ## 数据集构建 ### 筛选依据 [更多信息待补充] ### 源数据 [更多信息待补充] #### 初始数据收集与标准化 [更多信息待补充] #### 源语言内容生产者 [更多信息待补充] ### 标注信息 [更多信息待补充] #### 标注流程 [更多信息待补充] #### 标注者 [更多信息待补充] ### 个人与敏感信息 [更多信息待补充] ## 数据使用注意事项 ### 数据集的社会影响 [更多信息待补充] ### 偏差讨论 [更多信息待补充] ### 其他已知局限性 [更多信息待补充] ## 附加信息 ### 数据集维护者 [更多信息待补充] ### 许可证信息 [更多信息待补充] ### 引用信息 [更多信息待补充] ### 贡献声明感谢 [@abhishekkrthakur](https://github.com/abhishekkrthakur) 为本数据集添加支持。

提供机构：

Helsinki-NLP

原始信息汇总

数据集概述

数据集名称: OpenSubtitles

语言: 数据集包含多种语言，包括但不限于：af, ar, bg, bn, br, bs, ca, cs, da, de, el, en, eo, es, et, eu, fa, fi, fr, gl, he, hi, hr, hu, hy, id, is, it, ja, ka, kk, ko, lt, lv, mk, ml, ms, nl, no, pl, pt, ro, ru, si, sk, sl, sq, sr, sv, ta, te, th, tl, tr, uk, ur, vi, zh等。

许可证: 未知

多语言性: 多语言

大小分类: 数据集大小分为多个类别，包括：n<1K, 10K<n<100K, 1M<n<10M。

源数据集: 原始数据

任务类别: 翻译

数据集结构

数据集包含多个配置，每个配置代表不同的语言对，例如：

配置名称: bs-eo
- 特征:
  - id: 字符串类型
  - meta: 结构化数据，包含year, imdbId, subtitleId, sentenceIds等字段
  - translation: 翻译数据，包含语言对bs和eo
- 数据分割:
  - 训练集: 10989个样本，总大小1204266字节
配置名称: fr-hy
- 特征:
  - id: 字符串类型
  - meta: 结构化数据，包含year, imdbId, subtitleId, sentenceIds等字段
  - translation: 翻译数据，包含语言对fr和hy
- 数据分割:
  - 训练集: 668个样本，总大小132450字节
配置名称: da-ru
- 特征:
  - id: 字符串类型
  - meta: 结构化数据，包含year, imdbId, subtitleId, sentenceIds等字段
  - translation: 翻译数据，包含语言对da和ru
- 数据分割:
  - 训练集: 7543012个样本，总大小1082649105字节
配置名称: en-hi
- 特征:
  - id: 字符串类型
  - meta: 结构化数据，包含year, imdbId, subtitleId, sentenceIds等字段
  - translation: 翻译数据，包含语言对en和hi
- 数据分割:
  - 训练集: 93016个样本，总大小13845544字节
配置名称: bn-is
- 特征:
  - id: 字符串类型
  - meta: 结构化数据，包含year, imdbId, subtitleId, sentenceIds等字段
  - translation: 翻译数据，包含语言对bn和is
- 数据分割:
  - 训练集: 38272个样本，总大小6371251字节

配置名称列表: bn-is, bs-eo, da-ru, en-hi, fr-hy

搜集汇总

数据集介绍

构建方式

OpenSubtitles数据集的构建基于从电影和电视剧中提取的多语言字幕，涵盖了广泛的语种对。数据集的构建过程包括从原始字幕文件中提取文本，并进行必要的清洗和格式化，以确保数据的质量和一致性。每个语言对的字幕数据被组织成翻译对，包含源语言和目标语言的句子，以及相关的元数据，如年份、IMDB ID和字幕ID等。

特点

该数据集的显著特点在于其多语言性和广泛的语言覆盖范围，支持超过50种语言的翻译任务。此外，数据集提供了详细的元数据，有助于研究人员在特定上下文中分析和使用数据。数据集的规模从数千到数百万条不等，适合不同规模的研究和应用需求。

使用方法

使用OpenSubtitles数据集时，用户可以通过指定语言代码对来加载特定的语言对数据。数据集支持多种语言对的翻译任务，用户可以根据研究需求选择合适的语言对进行加载和分析。数据集的结构设计便于直接用于机器翻译模型的训练和评估，同时也适用于其他自然语言处理任务的研究。

背景与挑战

背景概述

OpenSubtitles数据集由Helsinki-NLP团队创建，专注于多语言字幕翻译任务。该数据集汇集了来自多种语言的电影和电视剧字幕，涵盖了从非洲到亚洲的广泛语言范围，包括但不限于英语、法语、中文、阿拉伯语等。其核心研究问题在于通过大规模的多语言字幕数据，提升机器翻译系统的性能，尤其是在低资源语言之间的翻译能力。该数据集的创建旨在为自然语言处理领域的研究者提供丰富的多语言资源，以推动跨语言交流和信息共享的技术发展。

当前挑战

OpenSubtitles数据集面临的主要挑战包括：首先，字幕文本的多样性和非正式表达增加了翻译模型的训练难度；其次，数据集中包含的语言种类繁多，部分语言的资源稀缺，导致模型在低资源语言上的表现不佳；此外，字幕文本中可能存在的文化偏见和敏感信息，也对数据的使用提出了伦理和法律上的挑战。在构建过程中，如何确保数据的多样性、准确性和隐私保护，也是该数据集面临的重要问题。

常用场景

经典使用场景

OpenSubtitles数据集在机器翻译领域中具有广泛的应用，尤其是在多语言翻译任务中。该数据集包含了多种语言对的平行语料，如英语到印地语（en-hi）、丹麦语到俄语（da-ru）等，为研究人员提供了丰富的资源来训练和评估翻译模型。通过利用这些平行语料，研究者可以开发出更准确、更流畅的多语言翻译系统，从而推动跨语言交流的发展。

实际应用

在实际应用中，OpenSubtitles数据集被广泛用于开发多语言翻译工具和系统。例如，它可以用于构建跨语言字幕生成工具，帮助用户在观看外语电影或视频时自动生成目标语言的字幕。此外，该数据集还可用于开发多语言客服系统、跨语言文档翻译服务等，极大地促进了全球范围内的信息交流和文化传播。

衍生相关工作

基于OpenSubtitles数据集，许多经典工作得以展开。例如，研究者利用该数据集训练了多种神经机器翻译模型，如Transformer和Seq2Seq模型，显著提升了翻译质量。此外，该数据集还被用于研究多语言预训练模型，如mBERT和XLM，这些模型在多语言任务中表现出色。还有一些工作专注于分析和改进低资源语言对的翻译效果，进一步拓展了该数据集的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集