OpenSubtitles Corpus

Name: OpenSubtitles Corpus
Creator: OpenDataLab
Published: 2026-05-17 08:30:28
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/OpenSubtitles

下载链接

链接失效反馈

官方服务：

资源简介：

OpenSubtitles 是多语言并行语料库的集合。该数据集是从一个庞大的电影和电视字幕数据库编译而来的，总共包括 1689 个双文本，涵盖 60 种语言的 26 亿个句子。

OpenSubtitles is a collection of multilingual parallel corpora. This dataset is compiled from a large-scale movie and TV subtitle database, containing a total of 1,689 bitext pairs, covering 2.6 billion sentences across 60 languages.

提供机构：

OpenDataLab

创建时间：

2022-08-19

搜集汇总

数据集介绍

背景与挑战

背景概述

OpenSubtitles Corpus是一个多语言并行语料库，包含1689个双文本，涵盖60种语言的26亿个句子，适用于自然语言处理和机器翻译等任务。该数据集由赫尔辛基大学和奥斯陆大学于2016年发布。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集