ANT Corpus

github2022-05-09 更新2024-05-31 收录

下载链接：

https://github.com/antcorpus/antcorpus.data

下载链接

链接失效反馈

官方服务：

资源简介：

ANT Corpus是一个包含阿拉伯新闻文本的数据集，提供了不同版本的下载，涵盖多种分类如文化、经济、政治等，数据以XML格式存储，符合TREC和CLEF标准。

The ANT Corpus is a dataset comprising Arabic news texts, offering various downloadable versions that encompass multiple categories such as culture, economy, and politics. The data is stored in XML format, adhering to TREC and CLEF standards.

创建时间：

2017-03-18

原始信息汇总

数据集概述

数据集名称

ANT Corpus（阿拉伯新闻文本语料库）

当前版本

v1.1

数据集内容

文章数量：10,161篇
总字数：超过1,474,000字
类别数量：9个

类别详情

类别（英文）	类别（阿拉伯文）	文章数量（v1.1）
culture	ثقافة	124
diverse	متفرقات	475
economy	اقتصاد	326
internationalNews	دولية	1,260
localNews	وطنية	4,832
politic	سياسة	514
society	مجتمع	1,087
sport	رياضة	1,460
technology	تكنولوجيا	83

文件格式

文件采用XML格式，使用与TREC和CLEF标准测试集合相似的标签。

引用许可

使用ANT Corpus需遵守引用许可，即在使用该数据集进行搜索或实验的任何材料中，至少引用一篇描述ANT Corpus的论文或参考项目主页。

示例文章结构

xml <DOC> <DOCNO>JA-economy-32-20170125</DOCNO> <URL>http://www.jawharafm.net/ar/article/ارتفاع-صادرات-تونس-من-التمور-/93/76664</URL> <SRC>Jawhara FM</SRC> <CAT>economy</CAT> <TITLE>ارتفاع صادرات تونس من التمور</TITLE> <TIME>2017-01-25T14:36:00+01:00</TIME> <AUTHOR></AUTHOR> <ABSTRACT>...</ABSTRACT> <TEXT>...</TEXT> </DOC>

标签说明

<DOCNO>：包含源代码、类别、递增ID和发布日期。
<AUTHOR>和<ABSTRACT>在某些文章中可能无内容。
<DOCNO>、<URL>、<SRC>、<CAT>、<TITLE>、<TIME>、<TEXT>为必填项。

搜集汇总

数据集介绍

构建方式

ANT Corpus的构建过程主要依赖于从JawharaFM新闻网站抓取的阿拉伯语新闻文本。数据集的版本迭代从v1.0到v1.1，文章数量从6,005篇增加到10,161篇，词汇量超过1,474,000个。每篇文章均按照TREC和CLEF标准测试集的XML格式进行结构化处理，确保数据的标准化和可扩展性。

使用方法

使用ANT Corpus时，研究人员可通过下载XML格式的文件，利用标准工具进行数据解析和处理。数据集适用于文本分类、信息检索、事件提取等自然语言处理任务。在使用过程中，用户需遵守引用许可协议，确保在相关出版物中引用ANT Corpus的相关论文或项目主页。此外，用户可通过GitHub的Issues页面提交问题或建议，参与数据集的持续改进。

背景与挑战

背景概述

ANT Corpus（阿拉伯新闻文本语料库）是由A. Chouigui、O. Ben Khiroun和B. Elayeb等研究人员于2017年创建的阿拉伯语新闻文本数据集，旨在支持阿拉伯语文本分类及相关自然语言处理任务的研究。该数据集由突尼斯RIADI-ENSI实验室、Manouba大学和Sousse大学联合开发，主要来源于JawharaFM新闻网站，涵盖了文化、经济、国际新闻、本地新闻、政治、社会、体育和技术等九个类别。ANT Corpus的构建为阿拉伯语自然语言处理领域提供了重要的数据资源，特别是在文本分类和事件提取等任务中展现了其独特价值。该数据集的研究成果已在多个国际会议上发表，推动了阿拉伯语文本处理技术的发展。

当前挑战

ANT Corpus在解决阿拉伯语文本分类问题时面临的主要挑战包括阿拉伯语本身的复杂性和多样性。阿拉伯语具有丰富的形态变化、方言差异以及复杂的语法结构，这为文本分类模型的训练和评估带来了困难。此外，数据集的构建过程中也面临诸多挑战，例如新闻文本的获取与清洗、类别标注的准确性以及数据格式的统一性。由于新闻文本的时效性和动态性，确保数据的时效性和代表性也是一个重要问题。此外，阿拉伯语资源的稀缺性使得数据集的扩展和维护变得尤为困难，需要持续的技术支持和社区贡献。

常用场景

经典使用场景

ANT Corpus 作为阿拉伯新闻文本的集合，广泛应用于自然语言处理领域，特别是在文本分类和信息检索任务中。该数据集通过提供丰富的阿拉伯语新闻文本，为研究人员提供了宝贵的资源，用于训练和评估机器学习模型，尤其是在处理阿拉伯语这种资源相对稀缺的语言时。其XML格式的文件结构使得数据易于解析和处理，适用于多种文本分析任务。

解决学术问题

ANT Corpus 解决了阿拉伯语文本分类和信息检索中的关键问题。由于阿拉伯语的复杂性和多样性，现有的文本处理工具和模型往往难以有效处理。该数据集通过提供大量标注的新闻文本，帮助研究人员开发更精确的分类算法和检索系统。此外，ANT Corpus 还为跨语言信息检索和多语言文本分析提供了基础数据，推动了阿拉伯语自然语言处理领域的研究进展。

实际应用

在实际应用中，ANT Corpus 被广泛用于新闻推荐系统、舆情分析和社交媒体监控等领域。通过分析新闻文本的内容和类别，企业可以更好地理解市场动态和公众情绪，从而制定更有效的营销策略。此外，该数据集还被用于开发智能新闻聚合平台，帮助用户快速获取感兴趣的新闻内容，提升信息获取的效率。

数据集最近研究