shanasai/makhzan

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/shanasai/makhzan

下载链接

链接失效反馈

资源简介：

makhzan数据集是一个用于机器学习、自然语言处理和语言分析的乌尔都语文本语料库。该数据集包含高质量的乌尔都语文本，适用于文本生成和掩码语言建模等任务。数据集的文本由专家生成和注释，确保了语言的高质量和一致性。数据集的结构包括文件ID、元数据、标题、字数、是否包含非乌尔都语文本以及文档正文等字段。所有数据都包含在训练集中。数据集的创建目的是为了提供高质量的乌尔都语文本，以便于自然语言处理和机器学习应用。数据集的来源包括来自拉合尔管理科学大学Gurmani文学与语言中心的Bunyad期刊和Al-Mawrid研究所的Ishraq期刊。数据集的注释过程使用XML语法进行，确保了文本的结构化和语义标注的一致性。

The Makhzan Dataset is an Urdu text corpus designed for machine learning, natural language processing, and linguistic analysis. It contains high-quality Urdu texts suitable for tasks including text generation and masked language modeling. All texts in the dataset are generated and annotated by domain experts, ensuring high linguistic quality and consistency. The dataset's structure comprises fields such as file ID, metadata, title, word count, a flag indicating the presence of non-Urdu text, and the full document body. All data is included in the training set. The dataset was developed to provide high-quality Urdu resources for natural language processing and machine learning applications. Its sources include the Bunyad journal from the Gurmani Center for Literature and Language at Lahore University of Management Sciences, as well as the Ishraq journal from the Al-Mawrid Institute. The annotation workflow utilizes XML syntax, which ensures structured text formatting and consistent semantic annotation across the dataset.

提供机构：

shanasai

原始信息汇总

数据集概述

数据集描述

数据集摘要

这是一个用于机器学习、自然语言处理和语言学分析的乌尔都语文本语料库。

支持的任务和排行榜

[更多信息需补充]

语言

乌尔都语 (ur)

数据集结构

数据实例

数据实例包括以下字段：

file_id (字符串): 文档文件ID，对应仓库中的文件名。
metadata (字符串): 包含文档元数据的XML格式字符串，如文档标题、作者和出版信息等。
title (字符串): 文档标题。
num-words (整数): 文档中的单词数量。
contains-non-urdu-languages (字符串): 文档是否包含非乌尔都语单词，Yes 或 No。
document_body (字符串): 文档正文，采用XML格式。

数据字段

file_id (字符串): 文档文件ID。
metadata (字符串): 包含文档元数据的XML格式字符串。
title (字符串): 文档标题。
num-words (整数): 文档中的单词数量。
contains-non-urdu-languages (字符串): 文档是否包含非乌尔都语单词。
document_body (字符串): 文档正文，采用XML格式。

数据分割

所有数据都在一个训练集 (train) 中。

数据集创建

策划理由

本仓库中的所有文本都经过质量筛选，保持了高编辑标准。鉴于大多数已出版的乌尔都语数字文本质量较低，这一筛选标准使得这些文本可用于自然语言处理和机器学习应用，而无需解决文本的基本质量问题。

我们努力确保这些文本尽可能具有广泛的代表性。具体来说，我们尝试选择尽可能多的作者，以及作者性别的多样性，以及出版年份和城市的多样性。这一努力并不完美，我们欢迎任何有助于进一步多样化这些文本的资源。

源数据

初始数据收集和规范化

[更多信息需补充]

源语言生产者是谁？

Makhzan项目最初由两本知名期刊的慷慨捐赠启动——Bunyad（来自拉合尔管理科学大学Gurmani中心文学与语言学）和Ishraq（来自Al-Mawrid研究所）。这一选择使得我们即使在初始语料库较小的情况下也能获得多样化的声音，同时确保了出版乌尔都语文本的最高编辑标准。因此，您的模型也能保持高语言标准。

注释

注释过程

文本采用XML语法进行结构化和注释。使用的元素本体大致基于HTML，简化了HTML的特定性，并增加了表达本语料库中常见且对语言学分析有用的现象的元素。文本的语义标记具有编辑性质，这意味着另一个人对文本进行语义标记可能会有所不同。然而，我们已努力确保一致性，并在保留文本原始含义的同时，使其易于通过语言学不同的文本片段进行分析。

注释使用<annotation>元素进行内联。

lang属性用于指示其他语言的文本（如引文或技术词汇）。属性值为两个字符的ISO 639-1代码。例如，阿拉伯语引文将注释为<annotation lang="ar"></annotation>。
type属性用于指示不是某种语言的文本，而是非乌尔都语文本。例如，URL被包裹在<annotation type="url">标签中。

注释者是谁？

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据的考虑

数据集的社会影响

[更多信息需补充]

偏见讨论

[更多信息需补充]

其他已知限制

少数文件的XML无效，无法加载。此问题已在此处跟踪。

附加信息

数据集策展人

Zeerak Ahmed

许可信息

[更多信息需补充]

引用信息

@misc{makhzan, title={Maḵẖzan}, howpublished = "url{https://github.com/zeerakahmed/makhzan/}", }

贡献

感谢 @arkhalid 添加此数据集。

AI搜集汇总

数据集介绍

构建方式

Makhzan数据集的构建基于高质量的乌尔都语文本，这些文本主要来源于两个著名的期刊——Bunyad和Ishraq。数据集的创建者通过严格的筛选标准，确保了文本的语言质量和代表性。数据集中的文本经过XML语法结构化，并进行了语义标注，以便于自然语言处理和机器学习应用。此外，数据集还特别关注了作者的多样性，包括性别、出版年份和城市，以增强其广泛的代表性。

特点

Makhzan数据集的主要特点在于其高质量的乌尔都语文本和详细的XML语法结构化。每个文档都包含丰富的元数据，如标题、作者信息、出版信息等，以及文档主体的详细结构化内容。此外，数据集还通过<annotation>标签对非乌尔都语文本进行了标注，便于语言分析。数据集的构建旨在为自然语言处理和机器学习提供一个高质量、多样化的乌尔都语文本资源。

使用方法

Makhzan数据集适用于多种自然语言处理任务，如文本生成和掩码语言建模。用户可以通过访问数据集的GitHub仓库下载数据，并使用XML解析工具处理文档内容。数据集的结构化设计使得用户可以轻松提取特定信息，如文档标题、作者信息和文档主体。此外，数据集的元数据和语义标注为更复杂的语言分析提供了便利。用户应确保遵守数据集的许可协议，并在使用时引用相关文献。

背景与挑战

背景概述

Makhzan数据集是由Zeerak Ahmed创建的一个乌尔都语文本语料库，旨在支持机器学习、自然语言处理和语言学分析。该数据集的创建始于2020年代初，主要研究人员包括Zeerak Ahmed和来自Lahore University of Management Sciences (LUMS)的Gurmani Center of Literature and Languages。Makhzan数据集的核心研究问题是如何在保持高质量语言标准的同时，构建一个广泛代表性的乌尔都语文本语料库。该数据集对乌尔都语自然语言处理领域具有重要影响，为研究人员提供了一个高质量的文本资源，有助于推动该领域的技术进步。

当前挑战

Makhzan数据集在构建过程中面临多个挑战。首先，确保文本的质量和代表性是一个主要问题，因为大多数已发布的乌尔都语文本在数字化形式中质量较低。其次，数据集的构建需要处理多种语言和文本类型的混合，这增加了语料库的复杂性。此外，数据集的注释过程需要高度一致性和准确性，以确保文本的原始意义不被扭曲。最后，数据集的规模和多样性也是一个挑战，尽管已经努力选择尽可能多的作者和多样化的出版年份和城市，但仍需进一步扩展以涵盖更广泛的乌尔都语文本。

常用场景

经典使用场景

Makhzan数据集的经典使用场景主要集中在乌尔都语文本的生成和掩码语言建模任务上。该数据集通过提供高质量的乌尔都语文本，为机器学习和自然语言处理领域的研究者提供了丰富的语料资源。研究者可以利用这些数据进行语言模型的训练，以提升乌尔都语的文本生成能力和掩码填充的准确性。

实际应用

在实际应用中，Makhzan数据集可以用于开发乌尔都语的智能助手、自动翻译系统以及内容生成工具。例如，通过训练基于该数据集的语言模型，可以实现乌尔都语的自动文本生成，从而应用于新闻报道、文学创作等领域。此外，该数据集还可用于构建乌尔都语的语法检查工具，提升文本处理的准确性和效率。

衍生相关工作

基于Makhzan数据集，研究者们已经开展了一系列相关工作。例如，有研究利用该数据集训练乌尔都语的BERT模型，以提升文本分类和情感分析的性能。此外，还有工作探索了如何利用该数据集进行跨语言的预训练，以增强乌尔都语与其他语言之间的翻译效果。这些研究不仅丰富了乌尔都语自然语言处理的方法论，也为后续研究提供了新的方向。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集