five

lblommesteyn/multilingual-endangered-languages-corpus

收藏
Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/lblommesteyn/multilingual-endangered-languages-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含1,050条高质量记录,记录了5种极度濒危和濒危的语言孤立语和土著语言,这些语言在HuggingFace Hub上几乎没有或完全没有现有的数字语料库。覆盖的语言包括Squamish、Burushaski、Haida、Ainu和Navajo,每种语言都有详细的ISO代码、使用人数、濒危状态和类型信息。数据集结构包括文本、英文翻译、来源、领域、子领域、叙述类型、语言代码、方言、濒危状态等字段。数据集由真实和合成记录组成,具体包括205条Squamish记录、202条Burushaski记录、202条Haida记录、203条Ainu记录、202条Navajo记录和36条英文参考条目。数据集适用于语言保护和复兴计划、计算语言学研究、低资源语言的机器翻译、土著文化遗产记录和双语教育材料等领域。

# 多语言濒危语言文化遗产语料库(Multilingual Endangered Languages Cultural Heritage Corpus) ## 数据集概述 本数据集包含**1050条高质量记录**,记录了**5种极危与濒危的语言孤立语(Language Isolate)及本土语言**,这些语言在HuggingFace Hub上几乎无现存数字语料库。 ### 覆盖语言 | 语言名称 | ISO代码 | 使用人数 | 濒危等级 | 语言类型 | |----------|----------|----------|--------|------| | **斯夸米什语(Squamish)** | squ | ~10名流利使用者 | 极危(Critically Endangered) | 海岸萨利希语族(Coast Salish) | | **布鲁夏斯基语(Burushaski)** | bsk | ~96000名使用者 | 易危(Vulnerable) | 语言孤立语(Language Isolate) | | **海达语(Haida)** | hdn | ~24名流利使用者 | 极危(Critically Endangered) | 语言孤立语(Language Isolate) | | **阿伊努语(Ainu)** | ain | ~10名母语使用者 | 极危(Critically Endangered) | 语言孤立语(Language Isolate) | | **纳瓦霍语(Navajo)** | nav | ~170000名使用者 | 易危(Vulnerable) | 南阿萨巴斯卡语族(Southern Athabaskan) | ### 本数据集的重要意义 - 语言孤立语(Language Isolate)是窥探人类认知与语言多样性的独特窗口 - 极危(Critically Endangered)语言将在一代人的时间内走向消亡 - 上述语言的数字语料库**几乎不存在** - 每一种语言都是**不可替代的文化遗产** ## 数据集结构 | 字段名 | 数据类型 | 字段说明 | |--------|------|-------------| | `text` | 字符串 | 核心文本内容 | | `translation_en` | 字符串 | 英语译文 | | `source` | 字符串 | 学术/文化来源 | | `domain` | 字符串 | 领域分类,可选值为:folklore、daily_life、education、linguistics | | `subdomain` | 字符串 | 具体细分子类别 | | `narrative_type` | 字符串 | 内容类型 | | `language` | 字符串 | ISO 639-1/2代码 | | `iso_639_3` | 字符串 | ISO 639-3代码 | | `glottocode` | 字符串 | Glottolog参考代码 | | `dialect` | 字符串 | 具体方言 | | `endangerment_status` | 字符串 | 联合国教科文组织(UNESCO)濒危等级 | | `synthetic` | 布尔值 | 是否为生成式记录(Generated record) | ## 数据集构成 - 斯夸米什语共205条记录(50条真实语料 + 155条合成语料) - 布鲁夏斯基语共202条记录(62条真实语料 + 140条合成语料) - 海达语共202条记录(52条真实语料 + 150条合成语料) - 阿伊努语共203条记录(53条真实语料 + 150条合成语料) - 纳瓦霍语共202条记录(52条真实语料 + 150条合成语料) - 另有36条英语参考条目(用于提供语言研究背景) ## 应用场景 - 语言保护与复兴项目 - 计算语言学研究 - 低资源语言机器翻译研究 - 本土文化遗产记录工作 - 双语教育材料开发 ## 授权协议 CC0 1.0 通用公共领域授权(CC0 1.0 Universal)
提供机构:
lblommesteyn
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作