qgyd2021/language_identification

Name: qgyd2021/language_identification
Creator: qgyd2021
Published: 2024-04-26 09:37:02
License: 暂无描述

Hugging Face2024-04-26 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/qgyd2021/language_identification

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多个子数据集，主要用于语种识别、多语言语料分析和机器翻译任务。数据集涵盖了多种语言，包括中文、英文、日文、德文、法文、西班牙文等。具体数据集包括多语言亚马逊评论语料库（MARC）、跨语言句子理解数据集（XNLI）、北欧语言识别数据集（nordic_langid）、专利摘要平行语料库（ParaPat）等。这些数据集广泛应用于自然语言处理领域，特别是多语言文本分类、语种识别和机器翻译任务。

提供机构：

qgyd2021

原始信息汇总

数据集概述

多语言语料

amazon_reviews_multi

原始数据/项目地址: Multilingual Amazon Reviews Corpus; 2010.02573
样本个数: TRAIN: 1191160, VALID: 29665, TEST: 29685
原始数据描述: 多语言亚马逊评论语料库 (MARC)，包含英语、日语、德语、法语、西班牙语和中文评论。
替代数据下载地址: amazon_reviews_multi

xnli

原始数据/项目地址: XNLI; D18-1269.pdf
样本个数: TRAIN: 7702055, VALID: 49750, TEST: 100129
原始数据描述: 促进跨语言句子理解研究的数据集。
替代数据下载地址: xnli

stsb_multi_mt

原始数据/项目地址: SemEval-2017 Task 1
样本个数: TRAIN: 104117, VALID: 25943, TEST: 22457
原始数据描述: 可用语言有：de、en、es、fr、it、nl、pl、pt、ru、zh。
替代数据下载地址: stsb_multi_mt

语种识别

scandi_langid

样本个数: TRAIN: 239618, TEST: 59840
替代数据下载地址: kardosdrur/scandi-langid

nordic_langid

原始数据/项目地址: Discriminating Between Similar Nordic Languages
样本个数: TRAIN: 226159, TEST: 10700
原始数据描述: 重点关注六种北欧语言之间的区别。
替代数据下载地址: strombergnlp/nordic_langid

mike0307

原始数据/项目地址: Mike0307/language-detection
样本个数: TRAIN: 33095, VALID: 4040, TEST: 4048

nbnn

原始数据/项目地址: oai-nb-no-sbr-80
样本个数: TRAIN: 1556212, VALID: 1957, TEST: 1944
原始数据描述: 包含挪威电报局 (NTB) 的新闻文本从博克马尔语翻译成新挪威语的内容。
替代数据下载地址: NbAiLab/nbnn_language_detection

机器翻译

bucc2018

原始数据/项目地址: bucc2018
样本个数: TRAIN: 2173318, TEST: 2125879
原始数据描述: 共享任务：识别可比语料库中的平行句子，语言：de, en, fr, ru, zh。

iwslt2017

原始数据/项目地址: 2017.iwslt-1.1.pdf
样本个数: TRAIN: 2482649, VALID: 11480, TEST: 72470
原始数据描述: IWSLT 2017 多语言任务解决了文本翻译问题，涵盖英语、德语、荷兰语、意大利语和罗马尼亚语等所有方向。
替代数据下载地址: iwslt2017

bsd_ja_en

原始数据/项目地址: 2008.01940v1
样本个数: TRAIN: 35755, VALID: 3636, TEST: 3702
原始数据描述: 提高会话文本的机器翻译质量，引入新构建的日语-英语商务会话平行语料库。
替代数据下载地址: bsd_ja_en

autshumato

样本个数: TRAIN: 652824
原始数据描述: Autshumato 项目的目标之一是开发三种南非语言对的机器翻译系统。
替代数据下载地址: autshumato

chr_en

原始数据/项目地址: 2010.04791
原始数据描述: ChrEn 是切罗基语-英语并行数据集，用于促进切罗基语和英语之间的机器翻译研究。
替代数据下载地址: chr_en

cmu_hinglish_dog

原始数据/项目地址: CMU_DoG; 1809.07358
样本个数: TRAIN: 13146, VALID: 1645, TEST: 1616
原始数据描述: 印度英语（印地语-英语之间的代码混合）文本对话及其相应的英语版本的集合。
替代数据下载地址: cmu_hinglish_dog

europa_eac_tm

原始数据/项目地址: EAC-Translation Memory
样本个数: TRAIN: 38054
原始数据描述: 从英语到多达 25 种语言的手动翻译的语料库。
替代数据下载地址: europa_eac_tm

europa_ecdc_tm

原始数据/项目地址: ECDC-Translation Memory
样本个数: TRAIN: 58968
原始数据描述: 25 种语言的句子及其专业翻译的集合。
替代数据下载地址: europa_ecdc_tm

flores

原始数据/项目地址: 1902.01382
原始数据描述: 低资源机器翻译的评估数据集：尼泊尔语-英语和僧伽罗语-英语。
替代数据下载地址: flores

giga_fren

替代数据下载地址: giga_fren

hind_encorp

原始数据/项目地址: HindEnCorp
样本个数: TRAIN: 445071
原始数据描述: 并行文本（句子对齐）来自以下来源：Tides，包含主要取自新闻文章的 50K 句对。
替代数据下载地址: hind_encorp

hrenwac_para

样本个数: TRAIN: 191946
原始数据描述: hrenWaC 语料库版本 2.0 由从克罗地亚 .hr 顶级域爬取的并行克罗地亚语-英语文本组成。
替代数据下载地址: hrenwac_para

id_panl_bppt

样本个数: TRAIN: 47916
原始数据描述: BPPT（印度尼西亚技术评估和应用机构）为 PAN 本地化项目创建的多域翻译系统并行文本语料库。
替代数据下载地址: id_panl_bppt

igbo

原始数据/项目地址: Igbo-English Machine Translation
原始数据描述: 为伊博语（尼日利亚三种主要语言之一）构建标准机器翻译基准数据集。
替代数据下载地址: igbo_english_machine_translation

menyo20k_mt

原始数据/项目地址: menyo20k_mt
样本个数: TRAIN: 19899, VALID: 6655, TEST: 13148
原始数据描述: MENYO-20k 是一个多域并行数据集，文本来自新闻文章、ted 演讲、电影文字记录、广播文字记录、科技文本等。
替代数据下载地址: menyo20k_mt

pib

原始数据/项目地址: CVIT-PIB
原始数据描述: 11 种印度语言的大规模句子对齐语料库。
替代数据下载地址: pib

poleval2019_mt

原始数据描述: PolEval 是一项受 SemEval 启发的波兰语自然语言处理工具评估活动。
替代数据下载地址: poleval2019_mt

wmt19

原始数据/项目地址: statmt.org
原始数据描述: 训练数据主要来源是Europarl 语料库、 UN 语料库、新闻评论语料库和 ParaCrawl语料库。
替代数据下载地址: wmt/wmt19

ro_sts_parallel

样本个数: TRAIN: 21226, VALID: 5470, TEST: 4693
原始数据描述: 通过将 STS 英语数据集翻译成罗马尼亚语而获得的并行罗马尼亚语-英语数据集。
替代数据下载地址: ro_sts_parallel

机器翻译

para_pat_cs_en

原始数据/项目地址: ParaPat; Homepage
样本个数: TRAIN: 156028
原始数据描述: ParaPat：专利摘要的数百万个句子平行语料库。
替代数据下载地址: para_pat

para_pat_de_en

原始数据/项目地址: ParaPat; Homepage
样本个数: TRAIN: 3065565
原始数据描述: ParaPat：专利摘要的数百万个句子平行语料库。
替代数据下载地址: para_pat

para_pat_de_fr

原始数据/项目地址: ParaPat; Homepage
样本个数: TRAIN: 1243643
原始数据描述: ParaPat：专利摘要的数百万个句子平行语料库。
替代数据下载地址: para_pat

para_pat_el_en

原始数据/项目地址: ParaPat; Homepage
样本个数: TRAIN: 20234
原始数据描述: ParaPat：专利摘要的数百万个句子平行语料库。
替代数据下载地址: para_pat

para_pat_en_es

原始数据/项目地址: ParaPat; Homepage
样本个数: TRAIN: 1147278
原始数据描述: ParaPat：专利摘要的数百万个句子平行语料库。
替代数据下载地址: para_pat

para_pat_en_hu

原始数据/项目地址: ParaPat; Homepage
样本个数: TRAIN: 84824
**

搜集汇总

数据集介绍

构建方式

该数据集的构建方式是通过从网络收集整理大量的多语言语料库和语种识别相关的数据。这些数据来源于多个项目和数据库，包括但不限于亚马逊评论语料库、XNLI、SemEval-2017 Task 1、scandi-langid、nordic-langid、Mike0307/language-detection、nbnn等。每个数据集都包含了大量的文本样本，并按照训练集、验证集和测试集进行划分，以供模型训练和评估之用。

特点

该数据集的特点在于其多样性和广泛性。它包含了多种语言的文本数据，涵盖了英语、日语、德语、法语、西班牙语、中文、北欧语言等多种语言。此外，数据集还包含了不同类型的数据，如评论、新闻、科技文本、专利摘要等，这些数据对于语种识别模型的训练和评估具有重要意义。同时，数据集也提供了丰富的标注信息，如语种标签、文本内容等，为研究人员提供了便利。

使用方法

该数据集的使用方法非常灵活。研究人员可以根据自己的需求选择不同的数据集和语言进行训练和评估。数据集提供了清晰的划分，包括训练集、验证集和测试集，方便研究人员进行模型训练和评估。同时，数据集也提供了丰富的标注信息，如语种标签、文本内容等，方便研究人员进行数据分析和处理。此外，数据集还提供了下载地址，方便研究人员获取和使用。

背景与挑战

背景概述

qgyd2021/language_identification数据集的创建，旨在推动语种识别领域的研究。该数据集的创建时间并未在README文件中明确指出，但考虑到其中包含的数据集来源，可以推测其创建时间在2021年或之后。主要研究人员或机构的信息也未在README文件中提及，但可以推断该数据集的创建可能与Hugging Face社区的研究者有关。该数据集的核心研究问题是提高语种识别的准确性和鲁棒性，这对于自然语言处理、机器翻译等领域具有重要意义。此外，该数据集的创建也对相关领域产生了深远的影响，为研究者提供了宝贵的数据资源。

当前挑战

qgyd2021/language_identification数据集面临着一些挑战。首先，语种识别领域的问题在于如何准确地识别不同语言的文本。这需要构建一个能够处理各种语言特点的模型。其次，在构建数据集的过程中，研究人员需要克服数据收集、清洗和标注等方面的挑战。这些过程需要大量的人力和物力投入。最后，由于语言是动态发展的，语种识别模型需要不断地更新和优化，以适应新的语言变化。

常用场景

经典使用场景

qgyd2021/language_identification 数据集主要用于语种识别，该数据集包含了多种语言的语料库，其中包括中文、英语、日语、德语、法语、西班牙语等。这些语料库被广泛应用于文本分类、情感分析、机器翻译等自然语言处理任务。此外，该数据集还包含了一些北欧语言的语料库，如丹麦语、瑞典语、挪威语等，这些语料库对于研究北欧语言之间的区别具有重要意义。

衍生相关工作

qgyd2021/language_identification 数据集衍生了多种相关的研究工作，例如基于该数据集的语种识别模型的开发、北欧语言之间区别的研究等。此外，该数据集还可以用于开发跨语言信息检索系统、多语言聊天机器人等应用，这些应用对于推动自然语言处理技术的发展具有重要意义。

数据集最近研究