arabic_functional_text_dimensions
收藏Hugging Face2024-06-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/zeydferhat/arabic_functional_text_dimensions
下载链接
链接失效反馈官方服务:
资源简介:
阿拉伯功能文本维度语料库(AFTD Corpus)是一个精选的阿拉伯语文档集合,旨在通过功能文本维度(FTD)方法评估文本分类技术。该语料库包含3,400个文档,涵盖17个不同的类别,旨在提升阿拉伯语文本分类的效果。
创建时间:
2024-06-25
原始信息汇总
数据集概述
数据集摘要
阿拉伯功能文本维度语料库(AFTD Corpus)是一个精选的阿拉伯文档集合,旨在使用功能文本维度(FTD)方法评估文本分类方法。该语料库包含3,400个文档,涵盖17个不同的类别,旨在增强阿拉伯文本分类。
支持的任务和排行榜
该数据集可用于各种自然语言处理任务,包括体裁分类、文本分类和理解阿拉伯文本的功能差异。
关键信息:
- 文档数量: 3,400
- 语言: 阿拉伯语
- 类别: 17个不同的功能文本维度(FTDs)
- 总词数: 805,028
语言
该数据集完全为阿拉伯语。
数据集结构
数据实例
以下是数据集中的一个示例:
- 标签: Reporting
- 代码: A8
- 示例文本: (阿拉伯语文本)
- URL: http://ar.w3newspapers.com/%D8%A7%D9%84%D8%AC%D8%B2%D8%A7%D8%A6%D8%B1/
- 国家: Algeria
数据字段
- 标签: 文本的功能体裁。
- 代码: 每个功能体裁的代码标识符。
- 文本: 实际文本内容。
- URL: 文本来源的URL。
- 国家: 文本收集自的网站所在国家。
- 词数: 文本摘录的总词数。
功能文本维度(FTDs)分布
| 代码 | 标签 | 数量 |
|---|---|---|
| A1 | argum | 200 |
| A4 | fictive | 200 |
| A7 | instruct | 200 |
| A8 | reporting | 200 |
| A9 | legal | 200 |
| A11 | Personal | 200 |
| A12 | commercial | 200 |
| A14 | academic | 200 |
| A16 | info | 200 |
| A17 | reviews | 200 |
| A20 | appell | 200 |
| A21 | report | 200 |
| A3 | emotive | 200 |
| A5 | flippant | 200 |
| A15 | specialist | 200 |
| A19 | poetic | 200 |
| A13 | propaganda | 200 |
功能文本维度(FTDs)定义
| 代码 | 名称 | 描述 |
|---|---|---|
| A1 | Argumentative | 文本在多大程度上试图说服读者支持某种观点或观点? |
| A4 | Fictive | 文本内容在多大程度上是虚构的? |
| A7 | Instruct | 文本在多大程度上旨在教导读者某事的工作原理或提供建议? |
| A8 | Reporting | 文本在多大程度上似乎是撰写时最近事件的报告? |
| A9 | Legal | 文本在多大程度上规定了一套规则? |
| A11 | Personal | 文本在多大程度上报告了第一人称故事? |
| A12 | Commercial | 文本在多大程度上推广产品或服务? |
| A14 | Academic | 文本在多大程度上报告了学术研究? |
| A16 | Info | 文本在多大程度上提供了定义文本主题的参考信息? |
| A17 | Reviews | 文本在多大程度上通过支持或批评特定实体来评估它? |
| A20 | Appell | 文本在多大程度上请求读者采取行动? |
| A21 | Report | 文本在多大程度上提供关于事件或情况的报告? |
| A3 | Emotive | 文本在多大程度上关注于表达情感? |
| A5 | Flippant | 文本在多大程度上是轻松的,即主要目的是娱乐读者? |
| A15 | Specialist | 文本在多大程度上需要专业领域的背景知识或参考来源才能理解? |
| A19 | Poetic | 文本作者在多大程度上关注文本的美学外观? |
| A13 | Propaganda | 文本在多大程度上旨在推广政治运动、政党、宗教信仰或其他非商业事业? |
数据集创建
策划理由
该数据集是为了分析阿拉伯文本在不同体裁中的功能多样性而策划的,旨在满足区分不同文本类型的资源需求。
源数据
该数据集是从各种来源编译的,包括在线文章、博客、文学作品和其他公开可用的阿拉伯文本。
注释
体裁是根据功能文本分析的既定标准进行注释的。
贡献者
该数据集是手动策划的。
许可信息
该数据集在Apache License 2.0下发布。
搜集汇总
数据集介绍

构建方式
阿拉伯功能文本维度数据集(AFTD Corpus)的构建旨在通过功能文本维度(FTD)方法评估阿拉伯文本分类方法。该数据集包含3,400份阿拉伯文档,涵盖17个不同的类别,旨在增强阿拉伯文本分类的研究。数据集的来源包括在线文章、博客、文学作品等公开可用的阿拉伯文本,并通过手动标注的方式对文本的功能类别进行了分类。
特点
该数据集的特点在于其广泛的文本类型覆盖和细致的功能分类。数据集中的文档涵盖了从新闻报道、法律文本到个人故事、商业推广等多种功能类别,每个类别均包含200个样本,确保了数据的多样性和平衡性。此外,数据集还提供了每个文本的URL来源和国家信息,便于研究者进行进一步的分析和验证。
使用方法
该数据集适用于多种自然语言处理任务,如文本分类、体裁识别和功能差异分析。研究者可以通过加载数据集,利用其提供的标签和文本内容,训练和评估文本分类模型。此外,数据集的功能维度定义和示例文本为研究者提供了清晰的参考,有助于深入理解阿拉伯文本的功能特征。
背景与挑战
背景概述
阿拉伯功能性文本维度数据集(Arabic Functional Text Dimensions Corpus, AFTD Corpus)是一个专门为阿拉伯语文本分类研究而设计的语料库,涵盖了17种不同的功能性文本类别。该数据集由3,400篇阿拉伯语文档组成,旨在通过功能性文本维度(FTD)方法提升阿拉伯语文本分类的效果。该数据集的创建源于对阿拉伯语文本多样性分析的需求,尤其是在不同文体之间的功能性差异研究方面。其核心研究问题在于如何通过功能性文本维度来区分和分类阿拉伯语文本,从而为自然语言处理任务提供更精细的文本分析工具。该数据集在阿拉伯语自然语言处理领域具有重要的影响力,尤其是在文体分类和功能性文本分析方面。
当前挑战
该数据集的主要挑战在于如何准确区分和分类阿拉伯语文本的功能性维度。由于阿拉伯语文本的复杂性和多样性,特别是在文体和功能性表达上的差异,文本分类任务面临较高的难度。此外,数据集的构建过程中也面临诸多挑战,包括从不同来源(如在线文章、博客、文学作品等)收集和整理阿拉伯语文本,并确保其代表性和多样性。同时,功能性文本维度的标注需要基于严格的准则,这对人工标注的准确性和一致性提出了较高要求。这些挑战不仅影响了数据集的构建效率,也对后续的文本分类模型训练和评估提出了更高的标准。
常用场景
经典使用场景
在阿拉伯语自然语言处理领域,arabic_functional_text_dimensions数据集被广泛应用于文本分类任务。该数据集通过提供涵盖17种不同功能文本维度的3400个文档,为研究者提供了一个丰富的资源,用于开发和评估文本分类算法。特别是在处理阿拉伯语文本时,该数据集能够帮助研究者更好地理解不同文本类型之间的功能差异,从而提升分类模型的准确性和鲁棒性。
实际应用
在实际应用中,arabic_functional_text_dimensions数据集被广泛用于阿拉伯语文本的自动分类和内容分析。例如,新闻机构可以利用该数据集训练模型,自动识别和分类新闻报道的类型;教育机构则可以通过该数据集开发教学工具,帮助学生理解不同文本类型的功能差异。此外,该数据集还可用于商业领域,如自动生成产品评论或广告文案的分类。
衍生相关工作
基于arabic_functional_text_dimensions数据集,研究者们已经开展了多项经典工作。例如,一些研究利用该数据集开发了基于深度学习的阿拉伯语文本分类模型,显著提升了分类精度。此外,该数据集还被用于跨语言文本分类研究,探索不同语言之间文本功能维度的共性与差异。这些工作不仅丰富了阿拉伯语自然语言处理的研究成果,还为其他语言的文本分类研究提供了新的思路。
以上内容由遇见数据集搜集并总结生成



