shanasai/makhzan
收藏数据集概述
数据集描述
数据集摘要
这是一个用于机器学习、自然语言处理和语言学分析的乌尔都语文本语料库。
支持的任务和排行榜
[更多信息需补充]
语言
乌尔都语 (ur)
数据集结构
数据实例
数据实例包括以下字段:
file_id(字符串): 文档文件ID,对应仓库中的文件名。metadata(字符串): 包含文档元数据的XML格式字符串,如文档标题、作者和出版信息等。title(字符串): 文档标题。num-words(整数): 文档中的单词数量。contains-non-urdu-languages(字符串): 文档是否包含非乌尔都语单词,Yes或No。document_body(字符串): 文档正文,采用XML格式。
数据字段
file_id(字符串): 文档文件ID。metadata(字符串): 包含文档元数据的XML格式字符串。title(字符串): 文档标题。num-words(整数): 文档中的单词数量。contains-non-urdu-languages(字符串): 文档是否包含非乌尔都语单词。document_body(字符串): 文档正文,采用XML格式。
数据分割
所有数据都在一个训练集 (train) 中。
数据集创建
策划理由
本仓库中的所有文本都经过质量筛选,保持了高编辑标准。鉴于大多数已出版的乌尔都语数字文本质量较低,这一筛选标准使得这些文本可用于自然语言处理和机器学习应用,而无需解决文本的基本质量问题。
我们努力确保这些文本尽可能具有广泛的代表性。具体来说,我们尝试选择尽可能多的作者,以及作者性别的多样性,以及出版年份和城市的多样性。这一努力并不完美,我们欢迎任何有助于进一步多样化这些文本的资源。
源数据
初始数据收集和规范化
[更多信息需补充]
源语言生产者是谁?
Makhzan项目最初由两本知名期刊的慷慨捐赠启动——Bunyad(来自拉合尔管理科学大学Gurmani中心文学与语言学)和Ishraq(来自Al-Mawrid研究所)。这一选择使得我们即使在初始语料库较小的情况下也能获得多样化的声音,同时确保了出版乌尔都语文本的最高编辑标准。因此,您的模型也能保持高语言标准。
注释
注释过程
文本采用XML语法进行结构化和注释。使用的元素本体大致基于HTML,简化了HTML的特定性,并增加了表达本语料库中常见且对语言学分析有用的现象的元素。文本的语义标记具有编辑性质,这意味着另一个人对文本进行语义标记可能会有所不同。然而,我们已努力确保一致性,并在保留文本原始含义的同时,使其易于通过语言学不同的文本片段进行分析。
注释使用<annotation>元素进行内联。
lang属性用于指示其他语言的文本(如引文或技术词汇)。属性值为两个字符的ISO 639-1代码。例如,阿拉伯语引文将注释为<annotation lang="ar"></annotation>。type属性用于指示不是某种语言的文本,而是非乌尔都语文本。例如,URL被包裹在<annotation type="url">标签中。
注释者是谁?
[更多信息需补充]
个人和敏感信息
[更多信息需补充]
使用数据的考虑
数据集的社会影响
[更多信息需补充]
偏见讨论
[更多信息需补充]
其他已知限制
少数文件的XML无效,无法加载。此问题已在此处跟踪。
附加信息
数据集策展人
Zeerak Ahmed
许可信息
[更多信息需补充]
引用信息
@misc{makhzan, title={Maḵẖzan}, howpublished = "url{https://github.com/zeerakahmed/makhzan/}", }
贡献
感谢 @arkhalid 添加此数据集。




