five

hamzas/sangraha-verified-urdu

收藏
Hugging Face2024-07-11 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/hamzas/sangraha-verified-urdu
下载链接
链接失效反馈
官方服务:
资源简介:
这是Sangraha数据集的`verified/urd`部分,专门针对乌尔都语。数据使用UrduHack的sentence_tokenizer进行句子分词,每行一个句子,且未保留原始元数据。

The Sangraha Verified Urdu dataset is a portion of the Sangraha dataset specifically for Urdu language. The data has been sentence-tokenized with one sentence per row using UrduHacks sentence_tokenizer tool, and original metadata is not retained.
提供机构:
hamzas
原始信息汇总

Sangraha Verified Urdu

概述

  • 数据集名称: Sangraha Verified Urdu
  • 许可证: CC BY 4.0
  • 语言: 乌尔都语 (ur)
  • 多语言性: 单语种 (monolingual)
  • 来源数据集: ai4bharat/sangraha

数据处理

  • 句子分割: 使用 UrduHack 的 sentence_tokenizer 进行句子分割,每行一个句子。
  • 元数据: 原始元数据未保留。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作