udmurt-corpora
收藏魔搭社区2025-08-01 更新2025-05-31 收录
下载链接:
https://modelscope.cn/datasets/ai-forever/udmurt-corpora
下载链接
链接失效反馈官方服务:
资源简介:
# Udmurt Language Text Dataset
## Description
This dataset comprises a variety of textual materials in the Udmurt language. The content includes:
- Literary works: Folk tales, poetry, and excerpts from books.
- News articles: Local news and cultural updates.
- Conversational data: Chat logs and spoken word transcripts.
The dataset is designed for linguistic research, natural language processing (NLP) tasks, and building language models for the Udmurt language.
## Dataset Details
- **Language**: Udmurt (`udm`)
- **Size**: ---
- **Format**: Plain text
- **License**: MIT
## Usage
The dataset can be loaded with the Hugging Face `datasets` library:
```python
from datasets import load_dataset
dataset = load_dataset("ai-forever/udmurt-corpora")
```
# 乌德穆尔特语文本数据集(Udmurt Language Text Dataset)
## 数据集描述
本数据集包含多类乌德穆尔特语(Udmurt)文本素材,具体内容如下:
- 文学作品:民间故事、诗歌及书籍节选
- 新闻资讯:本地新闻与文化动态
- 会话数据:聊天日志与口语转录文本
本数据集面向乌德穆尔特语的语言学研究、自然语言处理(NLP)任务以及语言模型构建工作而设计。
## 数据集详情
- **语言**:乌德穆尔特语(`udm`)
- **数据规模**:未标注
- **格式**:纯文本
- **许可协议**:MIT
## 使用方式
本数据集可通过Hugging Face `datasets`库进行加载:
python
from datasets import load_dataset
dataset = load_dataset("ai-forever/udmurt-corpora")
提供机构:
maas
创建时间:
2025-05-26



