lblommesteyn/multilingual-endangered-languages-corpus
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/lblommesteyn/multilingual-endangered-languages-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1,050条高质量记录,记录了5种极度濒危和濒危的语言孤立语和土著语言,这些语言在HuggingFace Hub上几乎没有或完全没有现有的数字语料库。覆盖的语言包括Squamish、Burushaski、Haida、Ainu和Navajo,每种语言都有详细的ISO代码、使用人数、濒危状态和类型信息。数据集结构包括文本、英文翻译、来源、领域、子领域、叙述类型、语言代码、方言、濒危状态等字段。数据集由真实和合成记录组成,具体包括205条Squamish记录、202条Burushaski记录、202条Haida记录、203条Ainu记录、202条Navajo记录和36条英文参考条目。数据集适用于语言保护和复兴计划、计算语言学研究、低资源语言的机器翻译、土著文化遗产记录和双语教育材料等领域。
# 多语言濒危语言文化遗产语料库(Multilingual Endangered Languages Cultural Heritage Corpus)
## 数据集概述
本数据集包含**1050条高质量记录**,记录了**5种极危与濒危的语言孤立语(Language Isolate)及本土语言**,这些语言在HuggingFace Hub上几乎无现存数字语料库。
### 覆盖语言
| 语言名称 | ISO代码 | 使用人数 | 濒危等级 | 语言类型 |
|----------|----------|----------|--------|------|
| **斯夸米什语(Squamish)** | squ | ~10名流利使用者 | 极危(Critically Endangered) | 海岸萨利希语族(Coast Salish) |
| **布鲁夏斯基语(Burushaski)** | bsk | ~96000名使用者 | 易危(Vulnerable) | 语言孤立语(Language Isolate) |
| **海达语(Haida)** | hdn | ~24名流利使用者 | 极危(Critically Endangered) | 语言孤立语(Language Isolate) |
| **阿伊努语(Ainu)** | ain | ~10名母语使用者 | 极危(Critically Endangered) | 语言孤立语(Language Isolate) |
| **纳瓦霍语(Navajo)** | nav | ~170000名使用者 | 易危(Vulnerable) | 南阿萨巴斯卡语族(Southern Athabaskan) |
### 本数据集的重要意义
- 语言孤立语(Language Isolate)是窥探人类认知与语言多样性的独特窗口
- 极危(Critically Endangered)语言将在一代人的时间内走向消亡
- 上述语言的数字语料库**几乎不存在**
- 每一种语言都是**不可替代的文化遗产**
## 数据集结构
| 字段名 | 数据类型 | 字段说明 |
|--------|------|-------------|
| `text` | 字符串 | 核心文本内容 |
| `translation_en` | 字符串 | 英语译文 |
| `source` | 字符串 | 学术/文化来源 |
| `domain` | 字符串 | 领域分类,可选值为:folklore、daily_life、education、linguistics |
| `subdomain` | 字符串 | 具体细分子类别 |
| `narrative_type` | 字符串 | 内容类型 |
| `language` | 字符串 | ISO 639-1/2代码 |
| `iso_639_3` | 字符串 | ISO 639-3代码 |
| `glottocode` | 字符串 | Glottolog参考代码 |
| `dialect` | 字符串 | 具体方言 |
| `endangerment_status` | 字符串 | 联合国教科文组织(UNESCO)濒危等级 |
| `synthetic` | 布尔值 | 是否为生成式记录(Generated record) |
## 数据集构成
- 斯夸米什语共205条记录(50条真实语料 + 155条合成语料)
- 布鲁夏斯基语共202条记录(62条真实语料 + 140条合成语料)
- 海达语共202条记录(52条真实语料 + 150条合成语料)
- 阿伊努语共203条记录(53条真实语料 + 150条合成语料)
- 纳瓦霍语共202条记录(52条真实语料 + 150条合成语料)
- 另有36条英语参考条目(用于提供语言研究背景)
## 应用场景
- 语言保护与复兴项目
- 计算语言学研究
- 低资源语言机器翻译研究
- 本土文化遗产记录工作
- 双语教育材料开发
## 授权协议
CC0 1.0 通用公共领域授权(CC0 1.0 Universal)
提供机构:
lblommesteyn



