qgyd2021/language_identification
收藏Hugging Face2024-04-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/qgyd2021/language_identification
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了多个子数据集,主要用于语种识别、多语言语料分析和机器翻译任务。数据集涵盖了多种语言,包括中文、英文、日文、德文、法文、西班牙文等。具体数据集包括多语言亚马逊评论语料库(MARC)、跨语言句子理解数据集(XNLI)、北欧语言识别数据集(nordic_langid)、专利摘要平行语料库(ParaPat)等。这些数据集广泛应用于自然语言处理领域,特别是多语言文本分类、语种识别和机器翻译任务。
该数据集包含了多个子数据集,主要用于语种识别、多语言语料分析和机器翻译任务。数据集涵盖了多种语言,包括中文、英文、日文、德文、法文、西班牙文等。具体数据集包括多语言亚马逊评论语料库(MARC)、跨语言句子理解数据集(XNLI)、北欧语言识别数据集(nordic_langid)、专利摘要平行语料库(ParaPat)等。这些数据集广泛应用于自然语言处理领域,特别是多语言文本分类、语种识别和机器翻译任务。
提供机构:
qgyd2021
原始信息汇总
数据集概述
多语言语料
amazon_reviews_multi
- 原始数据/项目地址: Multilingual Amazon Reviews Corpus; 2010.02573
- 样本个数: TRAIN: 1191160, VALID: 29665, TEST: 29685
- 原始数据描述: 多语言亚马逊评论语料库 (MARC),包含英语、日语、德语、法语、西班牙语和中文评论。
- 替代数据下载地址: amazon_reviews_multi
xnli
- 原始数据/项目地址: XNLI; D18-1269.pdf
- 样本个数: TRAIN: 7702055, VALID: 49750, TEST: 100129
- 原始数据描述: 促进跨语言句子理解研究的数据集。
- 替代数据下载地址: xnli
stsb_multi_mt
- 原始数据/项目地址: SemEval-2017 Task 1
- 样本个数: TRAIN: 104117, VALID: 25943, TEST: 22457
- 原始数据描述: 可用语言有:de、en、es、fr、it、nl、pl、pt、ru、zh。
- 替代数据下载地址: stsb_multi_mt
语种识别
scandi_langid
- 样本个数: TRAIN: 239618, TEST: 59840
- 替代数据下载地址: kardosdrur/scandi-langid
nordic_langid
- 原始数据/项目地址: Discriminating Between Similar Nordic Languages
- 样本个数: TRAIN: 226159, TEST: 10700
- 原始数据描述: 重点关注六种北欧语言之间的区别。
- 替代数据下载地址: strombergnlp/nordic_langid
mike0307
- 原始数据/项目地址: Mike0307/language-detection
- 样本个数: TRAIN: 33095, VALID: 4040, TEST: 4048
nbnn
- 原始数据/项目地址: oai-nb-no-sbr-80
- 样本个数: TRAIN: 1556212, VALID: 1957, TEST: 1944
- 原始数据描述: 包含挪威电报局 (NTB) 的新闻文本从博克马尔语翻译成新挪威语的内容。
- 替代数据下载地址: NbAiLab/nbnn_language_detection
机器翻译
bucc2018
- 原始数据/项目地址: bucc2018
- 样本个数: TRAIN: 2173318, TEST: 2125879
- 原始数据描述: 共享任务:识别可比语料库中的平行句子,语言:de, en, fr, ru, zh。
iwslt2017
- 原始数据/项目地址: 2017.iwslt-1.1.pdf
- 样本个数: TRAIN: 2482649, VALID: 11480, TEST: 72470
- 原始数据描述: IWSLT 2017 多语言任务解决了文本翻译问题,涵盖英语、德语、荷兰语、意大利语和罗马尼亚语等所有方向。
- 替代数据下载地址: iwslt2017
bsd_ja_en
- 原始数据/项目地址: 2008.01940v1
- 样本个数: TRAIN: 35755, VALID: 3636, TEST: 3702
- 原始数据描述: 提高会话文本的机器翻译质量,引入新构建的日语-英语商务会话平行语料库。
- 替代数据下载地址: bsd_ja_en
autshumato
- 样本个数: TRAIN: 652824
- 原始数据描述: Autshumato 项目的目标之一是开发三种南非语言对的机器翻译系统。
- 替代数据下载地址: autshumato
chr_en
- 原始数据/项目地址: 2010.04791
- 原始数据描述: ChrEn 是切罗基语-英语并行数据集,用于促进切罗基语和英语之间的机器翻译研究。
- 替代数据下载地址: chr_en
cmu_hinglish_dog
- 原始数据/项目地址: CMU_DoG; 1809.07358
- 样本个数: TRAIN: 13146, VALID: 1645, TEST: 1616
- 原始数据描述: 印度英语(印地语-英语之间的代码混合)文本对话及其相应的英语版本的集合。
- 替代数据下载地址: cmu_hinglish_dog
europa_eac_tm
- 原始数据/项目地址: EAC-Translation Memory
- 样本个数: TRAIN: 38054
- 原始数据描述: 从英语到多达 25 种语言的手动翻译的语料库。
- 替代数据下载地址: europa_eac_tm
europa_ecdc_tm
- 原始数据/项目地址: ECDC-Translation Memory
- 样本个数: TRAIN: 58968
- 原始数据描述: 25 种语言的句子及其专业翻译的集合。
- 替代数据下载地址: europa_ecdc_tm
flores
- 原始数据/项目地址: 1902.01382
- 原始数据描述: 低资源机器翻译的评估数据集:尼泊尔语-英语和僧伽罗语-英语。
- 替代数据下载地址: flores
giga_fren
- 替代数据下载地址: giga_fren
hind_encorp
- 原始数据/项目地址: HindEnCorp
- 样本个数: TRAIN: 445071
- 原始数据描述: 并行文本(句子对齐)来自以下来源:Tides,包含主要取自新闻文章的 50K 句对。
- 替代数据下载地址: hind_encorp
hrenwac_para
- 样本个数: TRAIN: 191946
- 原始数据描述: hrenWaC 语料库版本 2.0 由从克罗地亚 .hr 顶级域爬取的并行克罗地亚语-英语文本组成。
- 替代数据下载地址: hrenwac_para
id_panl_bppt
- 样本个数: TRAIN: 47916
- 原始数据描述: BPPT(印度尼西亚技术评估和应用机构)为 PAN 本地化项目创建的多域翻译系统并行文本语料库。
- 替代数据下载地址: id_panl_bppt
igbo
- 原始数据/项目地址: Igbo-English Machine Translation
- 原始数据描述: 为伊博语(尼日利亚三种主要语言之一)构建标准机器翻译基准数据集。
- 替代数据下载地址: igbo_english_machine_translation
menyo20k_mt
- 原始数据/项目地址: menyo20k_mt
- 样本个数: TRAIN: 19899, VALID: 6655, TEST: 13148
- 原始数据描述: MENYO-20k 是一个多域并行数据集,文本来自新闻文章、ted 演讲、电影文字记录、广播文字记录、科技文本等。
- 替代数据下载地址: menyo20k_mt
pib
poleval2019_mt
- 原始数据描述: PolEval 是一项受 SemEval 启发的波兰语自然语言处理工具评估活动。
- 替代数据下载地址: poleval2019_mt
wmt19
- 原始数据/项目地址: statmt.org
- 原始数据描述: 训练数据主要来源是Europarl 语料库、 UN 语料库、新闻评论语料库和 ParaCrawl语料库。
- 替代数据下载地址: wmt/wmt19
ro_sts_parallel
- 样本个数: TRAIN: 21226, VALID: 5470, TEST: 4693
- 原始数据描述: 通过将 STS 英语数据集翻译成罗马尼亚语而获得的并行罗马尼亚语-英语数据集。
- 替代数据下载地址: ro_sts_parallel
机器翻译
para_pat_cs_en
- 原始数据/项目地址: ParaPat; Homepage
- 样本个数: TRAIN: 156028
- 原始数据描述: ParaPat:专利摘要的数百万个句子平行语料库。
- 替代数据下载地址: para_pat
para_pat_de_en
- 原始数据/项目地址: ParaPat; Homepage
- 样本个数: TRAIN: 3065565
- 原始数据描述: ParaPat:专利摘要的数百万个句子平行语料库。
- 替代数据下载地址: para_pat
para_pat_de_fr
- 原始数据/项目地址: ParaPat; Homepage
- 样本个数: TRAIN: 1243643
- 原始数据描述: ParaPat:专利摘要的数百万个句子平行语料库。
- 替代数据下载地址: para_pat
para_pat_el_en
- 原始数据/项目地址: ParaPat; Homepage
- 样本个数: TRAIN: 20234
- 原始数据描述: ParaPat:专利摘要的数百万个句子平行语料库。
- 替代数据下载地址: para_pat
para_pat_en_es
- 原始数据/项目地址: ParaPat; Homepage
- 样本个数: TRAIN: 1147278
- 原始数据描述: ParaPat:专利摘要的数百万个句子平行语料库。
- 替代数据下载地址: para_pat
para_pat_en_hu
搜集汇总
数据集介绍

构建方式
该数据集的构建方式是通过从网络收集整理大量的多语言语料库和语种识别相关的数据。这些数据来源于多个项目和数据库,包括但不限于亚马逊评论语料库、XNLI、SemEval-2017 Task 1、scandi-langid、nordic-langid、Mike0307/language-detection、nbnn等。每个数据集都包含了大量的文本样本,并按照训练集、验证集和测试集进行划分,以供模型训练和评估之用。
特点
该数据集的特点在于其多样性和广泛性。它包含了多种语言的文本数据,涵盖了英语、日语、德语、法语、西班牙语、中文、北欧语言等多种语言。此外,数据集还包含了不同类型的数据,如评论、新闻、科技文本、专利摘要等,这些数据对于语种识别模型的训练和评估具有重要意义。同时,数据集也提供了丰富的标注信息,如语种标签、文本内容等,为研究人员提供了便利。
使用方法
该数据集的使用方法非常灵活。研究人员可以根据自己的需求选择不同的数据集和语言进行训练和评估。数据集提供了清晰的划分,包括训练集、验证集和测试集,方便研究人员进行模型训练和评估。同时,数据集也提供了丰富的标注信息,如语种标签、文本内容等,方便研究人员进行数据分析和处理。此外,数据集还提供了下载地址,方便研究人员获取和使用。
背景与挑战
背景概述
qgyd2021/language_identification数据集的创建,旨在推动语种识别领域的研究。该数据集的创建时间并未在README文件中明确指出,但考虑到其中包含的数据集来源,可以推测其创建时间在2021年或之后。主要研究人员或机构的信息也未在README文件中提及,但可以推断该数据集的创建可能与Hugging Face社区的研究者有关。该数据集的核心研究问题是提高语种识别的准确性和鲁棒性,这对于自然语言处理、机器翻译等领域具有重要意义。此外,该数据集的创建也对相关领域产生了深远的影响,为研究者提供了宝贵的数据资源。
当前挑战
qgyd2021/language_identification数据集面临着一些挑战。首先,语种识别领域的问题在于如何准确地识别不同语言的文本。这需要构建一个能够处理各种语言特点的模型。其次,在构建数据集的过程中,研究人员需要克服数据收集、清洗和标注等方面的挑战。这些过程需要大量的人力和物力投入。最后,由于语言是动态发展的,语种识别模型需要不断地更新和优化,以适应新的语言变化。
常用场景
经典使用场景
qgyd2021/language_identification 数据集主要用于语种识别,该数据集包含了多种语言的语料库,其中包括中文、英语、日语、德语、法语、西班牙语等。这些语料库被广泛应用于文本分类、情感分析、机器翻译等自然语言处理任务。此外,该数据集还包含了一些北欧语言的语料库,如丹麦语、瑞典语、挪威语等,这些语料库对于研究北欧语言之间的区别具有重要意义。
衍生相关工作
qgyd2021/language_identification 数据集衍生了多种相关的研究工作,例如基于该数据集的语种识别模型的开发、北欧语言之间区别的研究等。此外,该数据集还可以用于开发跨语言信息检索系统、多语言聊天机器人等应用,这些应用对于推动自然语言处理技术的发展具有重要意义。
数据集最近研究
最新研究方向
在语言识别领域,qgyd2021/language_identification 数据集的最新研究方向集中在提高识别准确性和跨语言的适应性。研究者们致力于开发能够区分细微语言差异的算法,特别是针对那些语法结构和词汇特征相似的语言。此外,研究还关注于如何利用深度学习和迁移学习技术,提升模型在低资源语言环境下的性能。通过探索无监督和半监督学习方法,研究者们试图降低对大规模标注数据的依赖,从而使得语言识别技术能够更广泛地应用于实际场景。这一研究方向不仅对于促进多语言信息处理技术的发展具有重要意义,而且在全球化背景下,对于打破语言障碍、促进跨文化交流也具有深远的影响。
以上内容由遇见数据集搜集并总结生成



