zeydferhat/functional_text_dimensions_for_arabic_text_classification
收藏Hugging Face2024-06-24 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/zeydferhat/functional_text_dimensions_for_arabic_text_classification
下载链接
链接失效反馈官方服务:
资源简介:
阿拉伯功能文本维度语料库(AFTD Corpus)是一个精心策划的阿拉伯文档集合,旨在使用功能文本维度(FTD)方法评估文本分类方法。该语料库包含3,400个文档,涵盖17个不同的类别,旨在增强阿拉伯文本的分类能力。数据集支持多种自然语言处理任务,包括体裁分类、文本分类和理解阿拉伯文本的功能差异。每个数据实例包括标签、代码、文本内容、URL来源、国家信息和字数统计。数据集还提供了功能文本维度的定义和分布情况,以及数据集的创建理由、来源数据和注释方法。
The Arabic Functional Text Dimensions Corpus (AFTD Corpus) is introduced as a curated collection of Arabic documents aimed at evaluating text classification methodologies using the Functional Text Dimensions (FTD) approach. This corpus comprises 3,400 documents covering 17 distinct class categories, designed to enhance text classification in Arabic. The dataset can be used for various natural language processing tasks including genre classification, text categorization, and understanding functional differences in Arabic text. Each data instance includes a label, code, text content, URL source, country information, and word count. The dataset also provides definitions and distributions of Functional Text Dimensions, as well as the rationale for dataset creation, source data, and annotation methods.
提供机构:
zeydferhat
原始信息汇总
数据集卡片:阿拉伯文本分类的功能文本维度
数据集概述
阿拉伯功能文本维度语料库(AFTD Corpus)是一个精心策划的阿拉伯文档集合,旨在使用功能文本维度(FTD)方法评估文本分类方法。该语料库包含3,400个文档,涵盖17个不同的类别,旨在增强阿拉伯文本分类。
支持的任务和排行榜
该数据集可用于各种自然语言处理任务,包括体裁分类、文本分类和理解阿拉伯文本的功能差异。
关键信息:
- 文档数量: 3,400
- 语言: 阿拉伯语
- 类别: 17个不同的功能文本维度(FTDs)
- 总词数: 805,028
语言
该数据集完全使用阿拉伯语。
数据集结构
数据实例
以下是数据集中的一个示例:
- 标签:Reporting
- 代码:A8
- 示例文本:أعلنت الشركة الوطنية للمحروقات "سوناطراك" عن توقيع اتفاقيات بينها وبين مجمع الطاقة الإيطالي إنيل، في إطار عقودهم لشراء وبيع الغاز الطبيعي الموجه للأسواق الإيطالية والإسبانية. وأفاد بيان لسوناطراك، أنه ووفقا لبنود مراجعة الأسعار التعاقدية، اتفق الطرفان على تعديل سعر البيع، تماشيا وظروف السوق، وأجمعا على توريد كميات إضافية لعام 2022 وكذلك على إمكانية توريدات إضافية في السنوات القادمة. وأكد الطرفان خلال التوقيع على هذه الاتفاقيات رغبتهما في تعزيز الشراكة التقليدية بين سوناطراك ومجمع إنيل، مما يسمح بتوطيد العلاقة التجارية في مجال الغاز الطبيعي وضمان استقرار وأمن إمدادات الغاز وبالتالي المساهمة في تعزيز الأمن الطاقوي للزبناء
- URL:http://ar.w3newspapers.com/%D8%A7%D9%84%D8%AC%D8%B2%D8%A7%D8%A6%D8%B1/
- 国家:Algeria
数据字段
- 标签:文本的功能体裁。
- 代码:每个功能体裁的代码标识符。
- 文本:实际的文本内容。
- URL:文本来源的URL。
- 国家:文本收集的网站所在国家。
- 词数:文本摘录的总词数。
功能文本维度(FTDs)分布
| 代码 | 标签 | 数量 |
|---|---|---|
| A1 | argum | 200 |
| A4 | fictive | 200 |
| A7 | instruct | 200 |
| A8 | reporting | 200 |
| A9 | legal | 200 |
| A11 | Personal | 200 |
| A12 | commercial | 200 |
| A14 | academic | 200 |
| A16 | info | 200 |
| A17 | reviews | 200 |
| A20 | appell | 200 |
| A21 | report | 200 |
| A3 | emotive | 200 |
| A5 | flippant | 200 |
| A15 | specialist | 200 |
| A19 | poetic | 200 |
| A13 | propaganda | 200 |
功能文本维度(FTDs)定义
| 代码 | 名称 | 描述 |
|---|---|---|
| A1 | Argumentative | 文本在多大程度上试图说服读者支持某个观点或观点? |
| A4 | Fictive | 文本内容在多大程度上是虚构的? |
| A7 | Instruct | 文本在多大程度上旨在教读者如何做某事或提供建议? |
| A8 | Reporting | 文本在多大程度上似乎是对写作时最近事件的报告? |
| A9 | Legal | 文本在多大程度上规定了一套规则? |
| A11 | Personal | 文本在多大程度上报告了一个第一人称的故事? |
| A12 | Commercial | 文本在多大程度上推广产品或服务? |
| A14 | Academic | 文本在多大程度上报告了学术研究? |
| A16 | Info | 文本在多大程度上提供了定义主题的参考信息? |
| A17 | Reviews | 文本在多大程度上通过支持或批评特定实体来评估它? |
| A20 | Appell | 文本在多大程度上请求读者采取行动? |
| A21 | Report | 文本在多大程度上提供了一个事件或情况的报告? |
| A3 | Emotive | 文本在多大程度上关注表达情感或情绪? |
| A5 | Flippant | 文本在多大程度上是轻松的,主要目的是娱乐读者? |
| A15 | Specialist | 文本在多大程度上需要专业领域的背景知识或参考来源才能理解? |
| A19 | Poetic | 文本的作者在多大程度上关注其美学外观? |
| A13 | Propaganda | 文本在多大程度上旨在推广政治运动、政党、宗教信仰或其他非商业事业? |
数据集创建
策划理由
该数据集是为了分析阿拉伯文本在不同体裁中的功能多样性,满足区分不同文本类型的资源需求。
源数据
数据集是从各种来源编译的,包括在线文章、博客、文学作品和其他公开可用的阿拉伯文本。
注释
体裁是根据功能文本分析的既定标准进行注释的。
贡献者
数据集由论文作者手动策划。
许可信息
该数据集在Apache License 2.0下许可。



