five

Shaistagi

收藏
Hugging Face2026-01-26 更新2026-01-27 收录
下载链接:
https://huggingface.co/datasets/ReySajju742/Shaistagi
下载链接
链接失效反馈
官方服务:
资源简介:
Shaistagi(乌尔都语意为“优雅”)是一个用于人工智能研究的大规模乌尔都语文本语料库。该数据集包含多个高质量的子集,涵盖不同领域和用途的乌尔都语文本数据。主要子集包括:1) reasoning_parquet:20万条指令/推理数据(Parquet格式);2) nmt_parallel:来自NMT语料库的2000万条独特乌尔都语句子;3) cc100_web:来自CC-100的大规模网络爬取文本;4) hplt_web:HPLT 2.0清洗后的乌尔都语网络文本;5) c4_web:AllenAI mC4乌尔都语子集;6) roman_urdu_collection:音译乌尔都语数据;7) sentiment_data:带有正面/负面标签的文本;8) names_collection:乌尔都语名称实体列表;9) mendeley_academic:学术资源;10) local_social:本地/社交媒体数据。数据集适用于文本生成、掩码填充、情感分析等多种自然语言处理任务,采用Apache 2.0许可证发布。
创建时间:
2026-01-20
原始信息汇总

Shaistagi - 乌尔都语大规模文本语料库

数据集概述

  • 数据集名称: Shaistagi - Urdu Text Corpus
  • 语言: 乌尔都语 (ur)
  • 许可证: Apache 2.0
  • 数据规模: 10M < n < 100M
  • 主要任务: 文本生成、填充掩码
  • 相关标签: 乌尔都语、巴基斯坦、文本语料库、语言模型、自然语言处理、GPT、大语言模型训练、推理、情感分析

数据集子集配置

数据集包含以下10个子集,可通过配置名称加载:

  1. reasoning_parquet: 20万行指令/推理数据(Parquet格式)
  2. nmt_parallel: 来自NMT语料库的2000万个独特乌尔都语句子
  3. cc100_web: 来自CC-100的大规模网络爬取文本
  4. hplt_web: HPLT 2.0清洗后的乌尔都语网络文本
  5. c4_web: AllenAI mC4乌尔都语子集
  6. roman_urdu_collection: 音译乌尔都语数据
  7. sentiment_data: 带有正面/负面标签的文本
  8. names_collection: 乌尔都语命名实体列表
  9. mendeley_academic: 学术来源数据
  10. local_social: 本地/社交媒体数据

数据结构示例(reasoning_parquet配置)

  • 特征:
    • text: 字符串类型
  • 训练集:
    • 样本数量: 199,999
    • 字节大小: 70,721,956
    • 下载大小: 18,764,038
    • 数据集大小: 70,721,956

加载方式

python from datasets import load_dataset reasoning = load_dataset("ReySajju742/Shaistagi", "reasoning_parquet") nmt = load_dataset("ReySajju742/Shaistagi", "nmt_parallel") cc100 = load_dataset("ReySajju742/Shaistagi", "cc100_web") sentiment = load_dataset("ReySajju742/Shaistagi", "sentiment_data")

仓库结构

Shaistagi/ ├── reasoning/ # 高质量推理数据(Parquet格式) ├── nmt/ # NMT平行语料库提取 ├── cc100/ # CC-100乌尔都语网络语料库 ├── hplt/ # HPLT 2.0清洗后的乌尔都语 ├── c4/ # AllenAI mC4乌尔都语子集 ├── roman_urdu/ # 罗马化/音译乌尔都语文本 ├── sentiment/ # 情感标签数据 ├── names/ # 命名实体集合 ├── mendeley/ # 学术来源数据 └── local/ # 本地/社交媒体数据

搜集汇总
数据集介绍
main_image_url
构建方式
在乌尔都语自然语言处理领域,Shaistagi数据集通过整合多个权威来源构建而成。其核心方法涉及从网络爬虫数据、学术文献、社交媒体及机器翻译平行语料中系统性地采集文本。具体而言,该数据集融合了CC-100和HPLT 2.0的大规模网络文本,同时纳入了AllenAI mC4的乌尔都语子集,并补充了本地社交媒体内容与学术资料。这种多源聚合策略不仅确保了语料的广泛代表性,还通过结构化存储与格式统一,为高质量语言模型的训练奠定了坚实基础。
特点
Shaistagi数据集的显著特征在于其高度的多样性与专业化配置。该语料库涵盖了从通用网络文本到特定领域数据的广泛内容,包括情感分析标注、推理指令数据以及罗马化乌尔都语文本。其模块化设计允许研究者按需选择不同子集,例如专门用于推理任务的Parquet格式数据,或面向机器翻译的平行句对。这种灵活的结构不仅支持多种自然语言处理任务,如文本生成与掩码填充,还为乌尔都语这一资源相对稀缺的语言提供了丰富的训练资源。
使用方法
使用Shaistagi数据集时,研究者可通过Hugging Face的datasets库便捷加载特定子集。只需调用load_dataset函数并指定对应配置名称,即可访问如推理数据、情感标注或网络爬虫文本等独立模块。例如,加载推理子集可直接用于指令微调任务,而情感数据子集则适用于情感分类模型的训练。这种按配置加载的方式不仅优化了数据管理效率,还支持研究者针对不同实验目标灵活组合语料,从而在乌尔都语语言模型开发与评估中实现高效应用。
背景与挑战
背景概述
在自然语言处理领域,低资源语言的研究长期面临数据稀缺的困境。Shaistagi数据集由ReySajju742于近年构建,旨在为乌尔都语这一重要但资源有限的南亚语言提供大规模、高质量的文本语料库。该数据集整合了来自网络爬取、学术文献、社交媒体及平行语料库的多样化文本,覆盖推理、情感分析、机器翻译等多个任务,其核心研究问题聚焦于提升乌尔都语语言模型的训练效果与应用广度。Shaistagi的出现显著填补了乌尔都语NLP资源的空白,为相关领域的模型开发与评估奠定了坚实基础。
当前挑战
在乌尔都语自然语言处理中,主要挑战在于缺乏大规模、标注精细的语料以支持复杂任务如推理与情感分析。Shaistagi数据集致力于解决这一领域问题,但其构建过程亦面临多重困难:首先,乌尔都语文本的数字化程度较低,需从异构来源如社交媒体、学术平台中爬取并清洗,涉及大量噪音过滤与格式标准化工作;其次,语言特性如波斯-阿拉伯字母书写与罗马化变体增加了数据整合的复杂性,需确保字符编码与文本质量的一致性;此外,数据版权与伦理考量要求对来源进行审慎处理,以保障语料库的合法性与代表性。
常用场景
经典使用场景
在乌尔都语自然语言处理领域,Shaistagi数据集凭借其大规模、多样化的文本子集,为语言模型的预训练与微调提供了核心资源。其经典使用场景聚焦于指令遵循与推理任务,通过reasoning_parquet子集中的20万条高质量指令数据,研究者能够训练模型理解复杂查询并生成连贯、符合逻辑的乌尔都语响应,显著提升了模型在低资源语言环境下的推理能力。
实际应用
在实际应用层面,Shaistagi数据集支撑了多种乌尔都语智能系统的开发。例如,基于sentiment_data子集的情感分析模型可应用于社交媒体舆情监控与产品评价挖掘;nmt_parallel子集助力构建高精度机器翻译系统,促进巴基斯坦等地区的跨语言信息交流;而roman_urdu_collection则有助于开发适应罗马化乌尔都语输入的输入法或语音识别工具,提升本地化用户体验。
衍生相关工作
围绕Shaistagi数据集,已衍生出一系列经典研究工作,包括基于其大规模语料训练的乌尔都语专用GPT风格语言模型,这些模型在文本生成、问答任务中展现出优异性能。同时,研究者利用其标注数据开发了细粒度情感分类器与命名实体识别系统,并在低资源语言模型压缩、多模态乌尔都语处理等前沿方向展开了深入探索,持续拓展该数据集在学术与工业界的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作