five

ISO Language Codes|语言代码数据集|国际化数据集

收藏
github2024-01-24 更新2024-05-31 收录
语言代码
国际化
下载链接:
https://github.com/datasets/language-codes
下载链接
链接失效反馈
资源简介:
包含ISO 639-1和ISO 639-2语言代码的全面信息,以及IETF语言标签。数据集提供了184种语言的代码及其英文名称,以及更详尽的ISO 639-2代码,包括英文和法文名称。此外,还包括了特殊的语言代码和IETF语言标签。

This dataset encompasses comprehensive information on ISO 639-1 and ISO 639-2 language codes, along with IETF language tags. It provides codes and English names for 184 languages, as well as more detailed ISO 639-2 codes, including names in both English and French. Additionally, it includes special language codes and IETF language tags.
创建时间:
2015-01-13
原始信息汇总

数据集概述

数据来源

数据文件

data/language-codes.csv

  • 包含184种语言的ISO 639-1(alpha 2 / 两字母)代码及其英文名称。

data/language-codes-3b2.csv

  • 包含184种语言的ISO 639-2(alpha 3 / 三字母)书目代码和ISO 639-1代码,以及它们的英文名称。

data/language-codes-full.csv

  • 包含所有ISO 639-2(alpha 3 / 三字母)代码的语言,相应的ISO 639-1代码(如果有),以及每种语言的英文和法文名称。
  • 存在两种三字母代码版本:书目和术语。每种语言都有一个书目代码,但只有少数语言有术语代码。术语代码设计为与相应的ISO 639-1两字母代码相似。
  • 包含四个特殊代码:mul, und, mis, zxx;以及一个保留范围qaa-qtz

data/ietf-language-tags.csv

  • 列出所有IETF语言标签,这些标签来自http://www.iana.org/assignments/language-tag-extensions-registry,并被包含在http://www.unicode.org/Public/cldr/latest/core.zip的/main文件夹中。

许可证

AI搜集汇总
数据集介绍
main_image_url
构建方式
ISO语言代码数据集的构建基于权威来源,包括美国国会图书馆作为ISO 639-2注册机构的数据,以及Unicode通用语言数据存储库。数据集涵盖了ISO 639-1、ISO 639-2和IETF语言类型,通过自动化脚本定期更新,确保数据的时效性和准确性。
使用方法
用户可以通过访问数据集的CSV文件,获取所需的语言代码信息。数据集适用于需要进行语言识别、本地化处理或语言代码转换的应用场景。使用时,建议检查原始数据源以确保符合任何特定的使用限制。
背景与挑战
背景概述
ISO语言代码数据集是一个全面涵盖ISO 639-1、ISO 639-2和IETF语言类型的语言代码信息集合。该数据集由美国国会图书馆作为ISO 639-2注册机构,以及Unicode通用语言数据存储库提供数据源。其核心研究问题在于提供一个标准化、全面且易于访问的语言代码数据库,以支持全球范围内的语言识别和分类需求。该数据集的创建旨在解决语言代码标准化和统一化的问题,对语言学研究、软件开发和国际交流等领域具有重要影响。
当前挑战
ISO语言代码数据集在构建过程中面临的主要挑战包括数据源的多样性和复杂性。数据来源于美国国会图书馆和Unicode通用语言数据存储库,这些数据源的更新频率和一致性需要严格监控。此外,数据集中包含了多种语言代码类型,如ISO 639-1、ISO 639-2和IETF语言标签,这增加了数据整合和维护的难度。另一个挑战是确保数据集的准确性和完整性,特别是在处理特殊代码和保留代码时,如'mul'、'und'、'mis'和'zxx'等。
常用场景
经典使用场景
ISO语言代码数据集在多语言处理和国际化应用中具有经典的使用场景。该数据集包含了ISO 639-1、ISO 639-2和IETF语言标签的详细信息,广泛应用于软件开发、网站本地化、以及多语言文本分析等领域。通过这些标准化的语言代码,开发者能够精确地识别和处理不同语言的文本,从而提升全球用户的体验。
解决学术问题
ISO语言代码数据集解决了多语言研究中的标准化问题,为语言识别、语言分类和语言资源管理提供了基础支持。该数据集的引入使得研究人员能够更高效地进行跨语言比较和分析,推动了语言学、计算机科学和信息工程等领域的研究进展。其标准化特性为全球语言资源的整合与共享提供了重要依据。
实际应用
在实际应用中,ISO语言代码数据集被广泛用于多语言软件开发、全球市场分析、以及跨文化交流平台。例如,在开发支持多语言的软件时,开发者可以利用该数据集确保软件能够正确识别和处理不同语言的用户输入。此外,市场研究人员可以利用这些代码进行语言分布分析,从而制定更具针对性的市场策略。
数据集最近研究
最新研究方向
在语言学与信息技术交叉领域,ISO语言代码数据集的研究正逐步深入,尤其是在多语言处理与国际化支持方面展现出显著的前沿性。该数据集整合了ISO 639-1、ISO 639-2及IETF语言标签,为全球范围内的语言识别与标准化提供了坚实的基础。近年来,随着自然语言处理(NLP)技术的飞速发展,该数据集被广泛应用于机器翻译、语音识别及跨文化交流系统中,推动了多语言技术的精准化与高效化。此外,数据集的自动更新机制确保了其时效性与完整性,进一步提升了其在现代信息技术中的应用价值。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)

本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。

国家青藏高原科学数据中心 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)

CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。

国家青藏高原科学数据中心 收录