five

Arabic Newswire Part 1

收藏
DataCite Commons2021-07-01 更新2025-04-16 收录
下载链接:
https://catalog.ldc.upenn.edu/LDC2001T55
下载链接
链接失效反馈
官方服务:
资源简介:
<h3>Introduction</h3> <p>This publication contains the Arabic Newswire A Corpus, Linguistic Data Consortium (LDC) catalog number LDC2001T55 and ISBN 1-58563-190-6. The Arabic Newswire Corpus is composed of articles from the Agence France Presse (AFP) Arabic Newswire. The source material was tagged using TIPSTER-style SGML and was transcoded to Unicode (UTF-8). The corpus includes articles from May 13, 1994 to December 20, 2000. </p><h3>Data</h3> <p>The data is in 2,337 compressed (zipped) Arabic text data files. There are 209 Mb of compressed data (869 Mb uncompressed) with approximately 383,872 documents containing 76 million tokens over approximately 666,094 unique words. </p><p>A template of the tagging is presented below. </p> yyyymmdd_AFP_ARB.dddd Arabic Text Arabic Text<p>One or More Paragraphs of Arabic Text</p> Arabic Text Arabic Text <p>For a sample file of tagged articles, please see this <a href="/Catalog/desc/addenda/LDC2001T55.gif" rel="nofollow">sample</a>. </p><h3>Updates</h3> There are no updates at this time. </br> Portions © 1994-2000 Agence France Press

<h3>简介</h3> <p>本出版物包含阿拉伯语新闻专线语料库(Arabic Newswire A Corpus),其语言数据联盟(Linguistic Data Consortium, LDC)编目号为LDC2001T55,国际标准书号(ISBN)为1-58563-190-6。该阿拉伯语新闻专线语料库源自法国新闻社(Agence France Presse, AFP)的阿拉伯语新闻专线稿件。原始素材采用TIPSTER风格的标准通用标记语言(SGML)进行标注,并转码为Unicode(UTF-8)格式。本语料库涵盖1994年5月13日至2000年12月20日期间的稿件。</p><h3>数据</h3> <p>本次提供的数据包含2337个经过压缩(ZIP格式)的阿拉伯语文本数据文件。压缩后数据总量为209 MB(解压后为869 MB),共计约383,872份文档,包含7600万个Token,对应约666,094个唯一词汇。</p><p>以下为标注格式模板:</p> yyyymmdd_AFP_ARB.dddd 阿拉伯语文本 阿拉伯语文本<p>一段或多段阿拉伯语文本</p> 阿拉伯语文本 阿拉伯语文本 <p>如需查看带标注稿件的示例文件,请参阅此<a href="/Catalog/desc/addenda/LDC2001T55.gif" rel="nofollow">示例</a>。</p><h3>更新说明</h3> 目前暂无更新计划。</br>部分内容 © 1994-2000 法国新闻社
提供机构:
Linguistic Data Consortium
创建时间:
2020-11-30
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作