makhzan
收藏Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/makhzan
下载链接
链接失效反馈官方服务:
资源简介:
Makhzan仓库专注于为机器学习、自然语言处理和语言分析提供乌尔都语文本语料库。该语料库包含5522个样本,主要用于文本生成和掩码填充等任务。数据来源于Bunyad和Ishraq等知名期刊,并由专家进行筛选,保证了语言质量和编辑标准。数据以XML格式进行结构化和标注,包括文档标题、作者信息、出版信息等元数据,以及文档正文内容,并提供标准化数据操作。该数据集在语言质量方面具有优势,但也存在一些XML文件无效的问题。
创建时间:
2024-07-19



