five

udmurt-corpora

收藏
魔搭社区2025-08-01 更新2025-05-31 收录
下载链接:
https://modelscope.cn/datasets/ai-forever/udmurt-corpora
下载链接
链接失效反馈
官方服务:
资源简介:
# Udmurt Language Text Dataset ## Description This dataset comprises a variety of textual materials in the Udmurt language. The content includes: - Literary works: Folk tales, poetry, and excerpts from books. - News articles: Local news and cultural updates. - Conversational data: Chat logs and spoken word transcripts. The dataset is designed for linguistic research, natural language processing (NLP) tasks, and building language models for the Udmurt language. ## Dataset Details - **Language**: Udmurt (`udm`) - **Size**: --- - **Format**: Plain text - **License**: MIT ## Usage The dataset can be loaded with the Hugging Face `datasets` library: ```python from datasets import load_dataset dataset = load_dataset("ai-forever/udmurt-corpora") ```

# 乌德穆尔特语文本数据集(Udmurt Language Text Dataset) ## 数据集描述 本数据集包含多类乌德穆尔特语(Udmurt)文本素材,具体内容如下: - 文学作品:民间故事、诗歌及书籍节选 - 新闻资讯:本地新闻与文化动态 - 会话数据:聊天日志与口语转录文本 本数据集面向乌德穆尔特语的语言学研究、自然语言处理(NLP)任务以及语言模型构建工作而设计。 ## 数据集详情 - **语言**:乌德穆尔特语(`udm`) - **数据规模**:未标注 - **格式**:纯文本 - **许可协议**:MIT ## 使用方式 本数据集可通过Hugging Face `datasets`库进行加载: python from datasets import load_dataset dataset = load_dataset("ai-forever/udmurt-corpora")
提供机构:
maas
创建时间:
2025-05-26
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作