Krio-Corpus

Hugging Face2025-09-17 更新2025-09-18 收录

下载链接：

https://huggingface.co/datasets/Jaward/Krio-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Krio语料库，包含33个简短的Krio故事和转录的叙述，用于建模Krio语言的TMA系统，包含详细的形态句法注释。

创建时间：

2025-09-14

原始信息汇总

Krio语料库数据集概述

数据集基本信息

语言：Krio语（kri）
许可证：Apache-2.0
数据集名称：Krio
配置名称：default
数据文件：train分割，路径为data/train-*

数据集内容

总样本数：33
总字节数：158,964
下载大小：108,922
数据集大小：158,964

数据特征

title_kri：Krio语标题（字符串类型）
title_eng：英语标题（字符串类型）
story_kri：Krio语故事（字符串类型）
story_eng：英语故事（字符串类型）
word_count：单词计数（整数类型）
phrase_count：短语计数（整数类型）
meta_data：元数据（字符串类型）

语料库统计

短语总数：937个
单词总数：8,299个

语言背景

Krio是塞拉利昂的通用语言，约97%的人口使用该语言（作为母语或第二语言）。它是该国事实上的国家语言，也是使用最广泛的语言，尽管英语是官方语言。

注释系统

数据集包含深入的形态句法注释，重点关注时态（Tense）、情态（Modality）和体（Aspect）系统。

时态特征

过去时
过去完成时
完成时
将来时

情态特征

动态情态
认识情态
义务情态
条件情态

体特征

进行体
起始体
完成体
习惯体

注释标签

数据集使用了详细的词性标签和注释标签系统，包括名词、动词、代词、形容词、副词、介词等多种词性类别，以及时态、情态、体等语法特征的特定标签。

形态模板

动词时态系统有特定的顺序公式：

past [0...1] ⊰ MODAL [0...1] ⊰ TNS-perf [0...1] ⊰ ASP [0...2] ROOT ⊱ ASP-compl [0...1]

数据来源

该语料库基于TypeCraft语言门户的Krio语料库，部分文本由Beatrice Owusua Nyampong所有，部分由TypeCraft项目所有。后者是对Nyampong语料库的进一步发展，修正了一些注释并添加了新的注释层。

官方资源

官方网站：https://typecraft.org/tc2wiki/Krio_Corpus

搜集汇总

数据集介绍

构建方式

在克里奥尔语言学研究的背景下，Krio-Corpus的构建依托于TypeCraft语言平台的系统化标注流程。该数据集整合了Beatrice Owusua Nyampong的原始语料与TypeCraft项目的扩展标注版本，通过双重校验机制确保标注准确性。语料来源包含33篇克里奥尔语短篇故事与转录叙述，采用人工转录与专业语言学标注相结合的方式，特别针对时态-情态-体貌系统设计了多层注释体系，并参照Beermann（2016）的理论框架对动词形态模板进行了结构化重构。

特点

该数据集的核心特征体现在其深度语言注释体系与双语平行结构。数据集包含937个短语单元（总计8299词），每个条目均配备克里奥尔语-英语双标题及故事文本，并标注词数、短语数等元数据。其独特价值在于对克里奥尔语动词系统的精细化标注：通过超40种语法标签（包括时态标记FUT/PRF/PAST、情态分类及体貌范畴）系统呈现西非克里奥尔语的形态句法特征。音频转录文本与MP3源文件的对应关系进一步增强了语料的多模态研究价值。

使用方法

研究者可通过HuggingFace平台直接下载数据集压缩包（108KB），解压后获得包含33个训练样本的JSONL格式文件。使用时应重点关注title_kri/story_kri字段的原始文本与title_eng/story_eng的英语对照，结合word_count与phrase_count进行定量分析。针对语言学研究，建议利用meta_data字段中的语法标注信息，特别是动词的时态-情态-体貌标记组合模式，可结合形态模板公式进行特征建模。对于叙事学分析，可参照Krio narrative页面的平行文本与音频资料进行多模态验证。

背景与挑战

背景概述

Krio-Corpus由TypeCraft语言研究项目于2016年前后构建，聚焦于塞拉利昂克里奥尔语的时态-情态-体貌系统分析。该数据集包含33篇平行语料，涵盖937个短语的深度语法标注，旨在通过计算语言学方法解析克里奥尔语的语法特征体系。作为西非重要的通用语，克里奥尔语的语言资源建设对保护语言多样性及跨学科研究具有显著价值，该项目通过系统化标注为低资源语言计算研究提供了范式参考。

当前挑战

数据集核心挑战在于低资源语言的语法体系建模：克里奥尔语的时态-情态-体貌系统存在多重语法标记嵌套现象，需解决特征重叠与语境依赖的解析难题。构建过程中面临原生语料稀缺性与标注复杂性双重制约，需通过跨语言对齐和专家验证确保标注一致性，同时需克服口语转写中的音系-正字法对应问题，这对资源匮乏语言的计量语言学分析提出了方法论层面的创新要求。

常用场景

经典使用场景

在语言学研究领域，Krio-Corpus作为克里奥尔语系的珍贵资源，主要用于时态-情态-体貌系统的深度分析。研究者通过其精细的语法标注体系，能够系统考察Krio语中动词形态的排列规律和语义功能，例如通过标注模板解析过去时、完成体和未来标记的句法分布，为形态句法理论提供实证基础。

衍生相关工作

基于该数据集衍生的经典工作包括Beermann（2016）提出的特征域分析模型，该研究利用语料标注验证了Krio语TMA系统的域适应性理论。后续研究进一步拓展至叙事文本的时间锚定分析，促进了计算语言学领域对克里奥尔语序列动词结构的自动化处理研究。

数据集最近研究