five

OpenSubtitles2018

收藏
github2022-10-27 更新2024-05-31 收录
下载链接:
https://github.com/orgtre/top-open-subtitles-sentences
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了62种语言中最常见的句子和单词的频率列表,这些数据是从OpenSubtitles2018语料库中整理出来的,每个语言的数据集都提供了前10,000个最常见句子和前30,000个最常见单词的列表。

This dataset comprises frequency lists of the most common sentences and words across 62 languages, meticulously curated from the OpenSubtitles2018 corpus. For each language, the dataset provides a list of the top 10,000 most frequent sentences and the top 30,000 most frequent words.
创建时间:
2022-10-20
原始信息汇总

数据集概述:Top OpenSubtitles Sentences

数据集内容

本数据集提供了62种语言在OpenSubtitles2018语料库中最常见的句子和单词的频率列表,以及可定制的Python代码以重现这些列表。

语言列表及数据量

code language sentences words
af Afrikaans 60,668 369,123
ar Arabic 77,863,954 360,421,023
bg Bulgarian 92,696,697 469,206,909
bn Bengali 623,609 2,829,891
br Breton 22,902 117,571
bs Bosnian 33,769,306 164,287,955
ca Catalan 604,672 3,645,619
cs Czech 134,738,901 640,319,278
da Danish 29,963,011 158,465,190
de German 40,648,529 218,781,994
el Greek 120,254,008 639,221,011
en English 424,332,313 2,558,565,196
eo Esperanto 91,573 445,995
es Spanish 211,510,220 1,137,050,844
et Estonian 27,378,143 125,927,295
eu Basque 1,011,460 4,226,325
fa Persian 12,361,713 64,326,270
fi Finnish 51,726,104 202,514,234
fr French 105,626,854 639,468,672
gl Galician 304,788 1,844,553
he Hebrew 84,803,287 400,628,507
hi Hindi 125,360 765,808
hr Croatian 112,249,406 538,052,737
hu Hungarian 102,656,500 451,839,266
hy Armenian 2,430 24,197
id Indonesian 22,396,206 103,580,137
is Icelandic 1,930,726 9,578,051
it Italian 103,588,080 581,515,381
ja Japanese 3,034,473 18,494,956
ka Georgian 274,057 1,261,959
kk Kazakh 4,051 14,257
ko Korean 2,062,345 7,408,813
lt Lithuanian 2,110,571 8,178,690
lv Latvian 612,122 2,565,490
mk Macedonian 7,707,280 38,379,332
ml Malayalam 505,786 1,752,604
ms Malay 3,769,707 17,475,629
nl Dutch 103,995,910 595,792,461
no Norwegian 12,866,036 66,979,416
pl Polish 233,638,062 1,049,551,703
pt Portuguese 117,679,690 623,827,834
pt_br Portuguese, Brazil 250,231,504 1,313,425,238
ro Romanian 191,620,920 1,051,216,598
ru Russian 43,563,555 213,758,183
si Sinhala 943,726 4,266,309
sk Slovak 15,958,574 77,096,449
sl Slovenian 59,309,241 267,371,023
sq Albanian 3,549,383 18,697,836
sr Serbian 165,175,285 807,672,359
sv Swedish 35,955,299 188,647,795
ta Tamil 34,263 141,693
te Telugu 24,027 107,890
th Thai 8,530,650 54,028,834
tl Tagalog 18,487 103,149
tr Turkish 172,028,191 694,495,389
uk Ukrainian 1,199,790 5,654,100
ur Urdu 38,672 266,345
vi Vietnamese 5,069,885 30,297,828
ze_en English, ze 6,282,966 42,270,214
ze_zh Chinese, ze 7,093,112 59,730,730
zh_cn Chinese [27,167,013](bld/top
搜集汇总
数据集介绍
main_image_url
构建方式
OpenSubtitles2018数据集的构建基于OPUS语料库中的OpenSubtitles2018部分,主要来源于未经处理的XML字幕文件。这些文件从OpenSubtitles.org网站下载,涵盖了62种语言的字幕文本。数据集的构建过程包括对原始文本的解析、清洗和频率统计,最终生成了每种语言中最常见的句子和词汇列表。清洗步骤包括去除不必要的字符、标点符号和数字,以及排除特定格式的句子。
特点
OpenSubtitles2018数据集的特点在于其多语言覆盖和丰富的文本内容。数据集包含了62种语言的常见句子和词汇列表,每种语言的句子和词汇均经过频率统计,并附带了其在语料库中的出现次数。此外,数据集还提供了对原始字幕文件的清洗和过滤功能,确保数据的质量和适用性。数据集的语言多样性使其成为跨语言研究和自然语言处理任务的理想选择。
使用方法
使用OpenSubtitles2018数据集时,用户首先需要下载并安装相关的Python依赖项。通过调整配置文件中的设置,用户可以自定义数据集的生成过程,包括选择特定语言、设置清洗规则等。数据集生成后,用户可以通过Python代码访问每种语言的常见句子和词汇列表,并利用这些数据进行语言模型训练、频率分析等任务。数据集还支持对原始字幕文件的进一步处理,以满足特定研究需求。
背景与挑战
背景概述
OpenSubtitles2018数据集是由P. Lison和J. Tiedemann于2016年创建的,作为OPUS语料库的一部分,旨在从电影和电视字幕中提取大规模平行语料库。该数据集涵盖了62种语言,包含超过22亿个词汇,广泛应用于机器翻译、自然语言处理和多语言研究领域。其核心研究问题在于如何从非结构化的字幕文本中提取有效的语言数据,以支持跨语言模型的训练与评估。OpenSubtitles2018的影响力不仅体现在其规模上,还在于其为多语言研究提供了丰富的资源,推动了语言技术的进步。
当前挑战
OpenSubtitles2018数据集在构建过程中面临多重挑战。首先,字幕文本的多样性和非结构化特性使得数据清洗和预处理变得复杂,尤其是在处理多语言和跨文化语境时。其次,许多字幕文件并非原始语言,而是从其他语言翻译而来,这可能导致数据代表性不足,影响模型的训练效果。此外,数据集中存在大量重复和不相关的条目,如专有名词和标点符号,进一步增加了数据清理的难度。尽管数据集提供了丰富的语言资源,但其构建过程中的这些挑战仍需通过更精细的数据处理方法来克服。
常用场景
经典使用场景
OpenSubtitles2018数据集在自然语言处理领域中被广泛用于多语言文本分析、机器翻译和语言模型的训练。其包含了62种语言的电影和电视剧字幕文本,为研究者提供了丰富的多语言平行语料。通过分析这些字幕中的高频句子和词汇,研究者能够深入理解不同语言的使用模式和语言结构。
实际应用
在实际应用中,OpenSubtitles2018数据集被广泛用于开发多语言翻译工具、语音识别系统和字幕生成软件。例如,许多在线翻译平台利用该数据集优化其翻译引擎,尤其是在处理电影和电视剧字幕时,能够提供更自然、更符合语境的翻译结果。此外,该数据集还被用于教育领域,帮助语言学习者通过真实语境中的句子提升语言能力。
衍生相关工作
基于OpenSubtitles2018数据集,许多经典研究工作得以展开。例如,研究者利用该数据集开发了多语言神经机器翻译模型,显著提升了低资源语言的翻译质量。此外,该数据集还被用于训练BERT等预训练语言模型,推动了多语言自然语言处理技术的发展。其他相关工作还包括跨语言情感分析和多语言文本生成等。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作