hamzas/sangraha-verified-urdu
收藏Hugging Face2024-07-11 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/hamzas/sangraha-verified-urdu
下载链接
链接失效反馈官方服务:
资源简介:
这是Sangraha数据集的`verified/urd`部分,专门针对乌尔都语。数据使用UrduHack的sentence_tokenizer进行句子分词,每行一个句子,且未保留原始元数据。
The Sangraha Verified Urdu dataset is a portion of the Sangraha dataset specifically for Urdu language. The data has been sentence-tokenized with one sentence per row using UrduHacks sentence_tokenizer tool, and original metadata is not retained.
提供机构:
hamzas
原始信息汇总
Sangraha Verified Urdu
概述
- 数据集名称: Sangraha Verified Urdu
- 许可证: CC BY 4.0
- 语言: 乌尔都语 (ur)
- 多语言性: 单语种 (monolingual)
- 来源数据集: ai4bharat/sangraha
数据处理
- 句子分割: 使用 UrduHack 的
sentence_tokenizer进行句子分割,每行一个句子。 - 元数据: 原始元数据未保留。



