OpenSubtitles2018

github2022-10-27 更新2024-05-31 收录

下载链接：

https://github.com/orgtre/top-open-subtitles-sentences

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了62种语言中最常见的句子和单词的频率列表，这些数据是从OpenSubtitles2018语料库中整理出来的，每个语言的数据集都提供了前10,000个最常见句子和前30,000个最常见单词的列表。

This dataset comprises frequency lists of the most common sentences and words across 62 languages, meticulously curated from the OpenSubtitles2018 corpus. For each language, the dataset provides a list of the top 10,000 most frequent sentences and the top 30,000 most frequent words.

创建时间：

2022-10-20

原始信息汇总

数据集概述：Top OpenSubtitles Sentences

数据集内容

本数据集提供了62种语言在OpenSubtitles2018语料库中最常见的句子和单词的频率列表，以及可定制的Python代码以重现这些列表。

语言列表及数据量

code	language	sentences	words
af	Afrikaans	60,668	369,123
ar	Arabic	77,863,954	360,421,023
bg	Bulgarian	92,696,697	469,206,909
bn	Bengali	623,609	2,829,891
br	Breton	22,902	117,571
bs	Bosnian	33,769,306	164,287,955
ca	Catalan	604,672	3,645,619
cs	Czech	134,738,901	640,319,278
da	Danish	29,963,011	158,465,190
de	German	40,648,529	218,781,994
el	Greek	120,254,008	639,221,011
en	English	424,332,313	2,558,565,196
eo	Esperanto	91,573	445,995
es	Spanish	211,510,220	1,137,050,844
et	Estonian	27,378,143	125,927,295
eu	Basque	1,011,460	4,226,325
fa	Persian	12,361,713	64,326,270
fi	Finnish	51,726,104	202,514,234
fr	French	105,626,854	639,468,672
gl	Galician	304,788	1,844,553
he	Hebrew	84,803,287	400,628,507
hi	Hindi	125,360	765,808
hr	Croatian	112,249,406	538,052,737
hu	Hungarian	102,656,500	451,839,266
hy	Armenian	2,430	24,197
id	Indonesian	22,396,206	103,580,137
is	Icelandic	1,930,726	9,578,051
it	Italian	103,588,080	581,515,381
ja	Japanese	3,034,473	18,494,956
ka	Georgian	274,057	1,261,959
kk	Kazakh	4,051	14,257
ko	Korean	2,062,345	7,408,813
lt	Lithuanian	2,110,571	8,178,690
lv	Latvian	612,122	2,565,490
mk	Macedonian	7,707,280	38,379,332
ml	Malayalam	505,786	1,752,604
ms	Malay	3,769,707	17,475,629
nl	Dutch	103,995,910	595,792,461
no	Norwegian	12,866,036	66,979,416
pl	Polish	233,638,062	1,049,551,703
pt	Portuguese	117,679,690	623,827,834
pt_br	Portuguese, Brazil	250,231,504	1,313,425,238
ro	Romanian	191,620,920	1,051,216,598
ru	Russian	43,563,555	213,758,183
si	Sinhala	943,726	4,266,309
sk	Slovak	15,958,574	77,096,449
sl	Slovenian	59,309,241	267,371,023
sq	Albanian	3,549,383	18,697,836
sr	Serbian	165,175,285	807,672,359
sv	Swedish	35,955,299	188,647,795
ta	Tamil	34,263	141,693
te	Telugu	24,027	107,890
th	Thai	8,530,650	54,028,834
tl	Tagalog	18,487	103,149
tr	Turkish	172,028,191	694,495,389
uk	Ukrainian	1,199,790	5,654,100
ur	Urdu	38,672	266,345
vi	Vietnamese	5,069,885	30,297,828
ze_en	English, ze	6,282,966	42,270,214
ze_zh	Chinese, ze	7,093,112	59,730,730
zh_cn	Chinese	[27,167,013](bld/top

搜集汇总

数据集介绍

构建方式

OpenSubtitles2018数据集的构建基于OPUS语料库中的OpenSubtitles2018部分，主要来源于未经处理的XML字幕文件。这些文件从OpenSubtitles.org网站下载，涵盖了62种语言的字幕文本。数据集的构建过程包括对原始文本的解析、清洗和频率统计，最终生成了每种语言中最常见的句子和词汇列表。清洗步骤包括去除不必要的字符、标点符号和数字，以及排除特定格式的句子。

特点

OpenSubtitles2018数据集的特点在于其多语言覆盖和丰富的文本内容。数据集包含了62种语言的常见句子和词汇列表，每种语言的句子和词汇均经过频率统计，并附带了其在语料库中的出现次数。此外，数据集还提供了对原始字幕文件的清洗和过滤功能，确保数据的质量和适用性。数据集的语言多样性使其成为跨语言研究和自然语言处理任务的理想选择。

使用方法

使用OpenSubtitles2018数据集时，用户首先需要下载并安装相关的Python依赖项。通过调整配置文件中的设置，用户可以自定义数据集的生成过程，包括选择特定语言、设置清洗规则等。数据集生成后，用户可以通过Python代码访问每种语言的常见句子和词汇列表，并利用这些数据进行语言模型训练、频率分析等任务。数据集还支持对原始字幕文件的进一步处理，以满足特定研究需求。

背景与挑战

背景概述

OpenSubtitles2018数据集是由P. Lison和J. Tiedemann于2016年创建的，作为OPUS语料库的一部分，旨在从电影和电视字幕中提取大规模平行语料库。该数据集涵盖了62种语言，包含超过22亿个词汇，广泛应用于机器翻译、自然语言处理和多语言研究领域。其核心研究问题在于如何从非结构化的字幕文本中提取有效的语言数据，以支持跨语言模型的训练与评估。OpenSubtitles2018的影响力不仅体现在其规模上，还在于其为多语言研究提供了丰富的资源，推动了语言技术的进步。

当前挑战

OpenSubtitles2018数据集在构建过程中面临多重挑战。首先，字幕文本的多样性和非结构化特性使得数据清洗和预处理变得复杂，尤其是在处理多语言和跨文化语境时。其次，许多字幕文件并非原始语言，而是从其他语言翻译而来，这可能导致数据代表性不足，影响模型的训练效果。此外，数据集中存在大量重复和不相关的条目，如专有名词和标点符号，进一步增加了数据清理的难度。尽管数据集提供了丰富的语言资源，但其构建过程中的这些挑战仍需通过更精细的数据处理方法来克服。

常用场景

经典使用场景

OpenSubtitles2018数据集在自然语言处理领域中被广泛用于多语言文本分析、机器翻译和语言模型的训练。其包含了62种语言的电影和电视剧字幕文本，为研究者提供了丰富的多语言平行语料。通过分析这些字幕中的高频句子和词汇，研究者能够深入理解不同语言的使用模式和语言结构。

实际应用

在实际应用中，OpenSubtitles2018数据集被广泛用于开发多语言翻译工具、语音识别系统和字幕生成软件。例如，许多在线翻译平台利用该数据集优化其翻译引擎，尤其是在处理电影和电视剧字幕时，能够提供更自然、更符合语境的翻译结果。此外，该数据集还被用于教育领域，帮助语言学习者通过真实语境中的句子提升语言能力。

衍生相关工作

基于OpenSubtitles2018数据集，许多经典研究工作得以展开。例如，研究者利用该数据集开发了多语言神经机器翻译模型，显著提升了低资源语言的翻译质量。此外，该数据集还被用于训练BERT等预训练语言模型，推动了多语言自然语言处理技术的发展。其他相关工作还包括跨语言情感分析和多语言文本生成等。

以上内容由遇见数据集搜集并总结生成