ISO Language Codes|语言代码数据集|国际化数据集

github2024-01-24 更新2024-05-31 收录

语言代码

国际化

下载链接：

https://github.com/datasets/language-codes

下载链接

链接失效反馈

资源简介：

包含ISO 639-1和ISO 639-2语言代码的全面信息，以及IETF语言标签。数据集提供了184种语言的代码及其英文名称，以及更详尽的ISO 639-2代码，包括英文和法文名称。此外，还包括了特殊的语言代码和IETF语言标签。

This dataset encompasses comprehensive information on ISO 639-1 and ISO 639-2 language codes, along with IETF language tags. It provides codes and English names for 184 languages, as well as more detailed ISO 639-2 codes, including names in both English and French. Additionally, it includes special language codes and IETF language tags.

创建时间：

2015-01-13

原始信息汇总

数据集概述

数据来源

数据来源于Library of Congress作为ISO 639-2注册机构，以及Unicode Common Locale Data Repository。

数据文件

data/language-codes.csv

包含184种语言的ISO 639-1（alpha 2 / 两字母）代码及其英文名称。

data/language-codes-3b2.csv

包含184种语言的ISO 639-2（alpha 3 / 三字母）书目代码和ISO 639-1代码，以及它们的英文名称。

data/language-codes-full.csv

包含所有ISO 639-2（alpha 3 / 三字母）代码的语言，相应的ISO 639-1代码（如果有），以及每种语言的英文和法文名称。
存在两种三字母代码版本：书目和术语。每种语言都有一个书目代码，但只有少数语言有术语代码。术语代码设计为与相应的ISO 639-1两字母代码相似。
包含四个特殊代码：mul, und, mis, zxx；以及一个保留范围qaa-qtz。

data/ietf-language-tags.csv

列出所有IETF语言标签，这些标签来自http://www.iana.org/assignments/language-tag-extensions-registry，并被包含在http://www.unicode.org/Public/cldr/latest/core.zip的/main文件夹中。

许可证

本数据集根据Public Domain Dedication and License (PDDL)授权。
使用这些数据时，建议检查原始来源以确认任何特定限制。

AI搜集汇总

数据集介绍

构建方式

ISO语言代码数据集的构建基于权威来源，包括美国国会图书馆作为ISO 639-2注册机构的数据，以及Unicode通用语言数据存储库。数据集涵盖了ISO 639-1、ISO 639-2和IETF语言类型，通过自动化脚本定期更新，确保数据的时效性和准确性。

使用方法

用户可以通过访问数据集的CSV文件，获取所需的语言代码信息。数据集适用于需要进行语言识别、本地化处理或语言代码转换的应用场景。使用时，建议检查原始数据源以确保符合任何特定的使用限制。

背景与挑战

背景概述

ISO语言代码数据集是一个全面涵盖ISO 639-1、ISO 639-2和IETF语言类型的语言代码信息集合。该数据集由美国国会图书馆作为ISO 639-2注册机构，以及Unicode通用语言数据存储库提供数据源。其核心研究问题在于提供一个标准化、全面且易于访问的语言代码数据库，以支持全球范围内的语言识别和分类需求。该数据集的创建旨在解决语言代码标准化和统一化的问题，对语言学研究、软件开发和国际交流等领域具有重要影响。

当前挑战

ISO语言代码数据集在构建过程中面临的主要挑战包括数据源的多样性和复杂性。数据来源于美国国会图书馆和Unicode通用语言数据存储库，这些数据源的更新频率和一致性需要严格监控。此外，数据集中包含了多种语言代码类型，如ISO 639-1、ISO 639-2和IETF语言标签，这增加了数据整合和维护的难度。另一个挑战是确保数据集的准确性和完整性，特别是在处理特殊代码和保留代码时，如'mul'、'und'、'mis'和'zxx'等。

常用场景

经典使用场景

ISO语言代码数据集在多语言处理和国际化应用中具有经典的使用场景。该数据集包含了ISO 639-1、ISO 639-2和IETF语言标签的详细信息，广泛应用于软件开发、网站本地化、以及多语言文本分析等领域。通过这些标准化的语言代码，开发者能够精确地识别和处理不同语言的文本，从而提升全球用户的体验。

解决学术问题

ISO语言代码数据集解决了多语言研究中的标准化问题，为语言识别、语言分类和语言资源管理提供了基础支持。该数据集的引入使得研究人员能够更高效地进行跨语言比较和分析，推动了语言学、计算机科学和信息工程等领域的研究进展。其标准化特性为全球语言资源的整合与共享提供了重要依据。

实际应用

在实际应用中，ISO语言代码数据集被广泛用于多语言软件开发、全球市场分析、以及跨文化交流平台。例如，在开发支持多语言的软件时，开发者可以利用该数据集确保软件能够正确识别和处理不同语言的用户输入。此外，市场研究人员可以利用这些代码进行语言分布分析，从而制定更具针对性的市场策略。

数据集最近研究

最新研究方向

在语言学与信息技术交叉领域，ISO语言代码数据集的研究正逐步深入，尤其是在多语言处理与国际化支持方面展现出显著的前沿性。该数据集整合了ISO 639-1、ISO 639-2及IETF语言标签，为全球范围内的语言识别与标准化提供了坚实的基础。近年来，随着自然语言处理（NLP）技术的飞速发展，该数据集被广泛应用于机器翻译、语音识别及跨文化交流系统中，推动了多语言技术的精准化与高效化。此外，数据集的自动更新机制确保了其时效性与完整性，进一步提升了其在现代信息技术中的应用价值。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

烟火数据集

烟火数据集是一个专门用于烟火识别和检测任务的数据集，旨在帮助研究人员开发更加精确和高效的烟火识别算法。包含了大量真实场景下的烟火视频数据，具有广泛的应用前景和重要的研究价值。

阿里云天池收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

YOLO-dataset

该数据集用于训练YOLO模型，包括分类、检测和姿态识别模型。目前支持v8版本，未来计划支持更多版本。

github 收录

eming/stock_price_trunked_128_12

该数据集包含股票交易相关的详细信息，如交易日期、收盘价、不同周期的移动平均线（MA3, MA5, MA10, MA20, MA60）、MACD指标、股票代码、预测值及预测日期。数据集分为训练集，共有121379个样本，总大小为1126032983字节。

hugging_face 收录