The Ethiopian News Headlines Corpus Collection

github2022-09-16 更新2024-05-31 收录

下载链接：

https://github.com/geezorg/enh-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含埃塞俄比亚新闻头条服务（ENH）的语料库，该服务于1989年晚期至1997年运行。ENH最初在ENH.EthiopiaOnline.Net网站上发布，后来在EthioZena.Net和News.Com.Et上发布。数据集包含13,079篇文章，来自126种报纸，是1998年（GC）网上出现的阿姆哈拉语前100万字的主要来源。

This repository contains the corpus of the Ethiopian News Headlines Service (ENH), which operated from late 1989 to 1997. Initially published on the ENH.EthiopiaOnline.Net website, ENH was later hosted on EthioZena.Net and News.Com.Et. The dataset comprises 13,079 articles from 126 newspapers, serving as the primary source for the first million words of Amharic text that appeared online in 1998 (GC).

创建时间：

2022-09-12

原始信息汇总

数据集概述

数据集名称

The Ethiopian News Headlines Corpus Collection

数据集描述

该数据集包含从1989年Hamle月至1997年Yekatit期间运营的Ethiopian News Headlines (ENH)服务的新闻文章。ENH服务最初在ENH.EthiopiaOnline.Net网站上发布，随后在EthioZena.Net和News.Com.Et上发布。数据集包含13,079篇文章，来自126种报纸。

数据集内容

文章数量：13,079篇
涉及报纸种类：126种
语言：Amharic
格式：XHTML，UTF-8编码

数据集历史

起始时间：1989年Hamle月
结束时间：1997年Yekatit月
后续发展：2002年Tahsas月后，重点转向开发基于书籍的语料库。

数据集使用的技术

编辑工具：Multilingual Emacs (MULE)使用Ethiopic包
存储格式：SERA transliteration with HTML markup
转换技术：使用Perl和C语言扩展（基于LibEth库）将SERA源文件转换为多种预Unicode编码系统。

数据集下载

可通过该仓库的“Releases”链接下载完整的数据集。

数据集版本更新

目标：将内容转换为现代且一致的HTML和CSS表示，修复内部链接，以及其他转换问题的轻微清理。
版本：1.000版本计划包含SERA源文件。

搜集汇总

数据集介绍

构建方式

埃塞俄比亚新闻标题语料库（ENH）的构建始于1989年，最初作为一项私人研究项目。数据收集过程中，打字员被要求严格按照新闻文章中的内容进行录入，不进行任何拼写或排版错误的修正。这种处理方式使得源数据中的错误与录入过程中引入的错误难以区分，但这正是研究目标的一部分。随着时间的推移，该语料库逐渐扩展，涵盖了来自126家报纸的13,079篇文章，成为当时阿姆哈拉语在线内容的主要来源。

使用方法

该数据集的使用方法相对简单，用户可以通过GitHub仓库的“Releases”链接下载完整的语料库。由于数据集以XHTML格式存储，用户可以使用现代浏览器或文本编辑器直接查看和分析内容。尽管内部链接可能无法正常工作，但数据集的结构清晰，便于进行文本挖掘、语言学研究或历史分析。未来的版本计划将包括对HTML和CSS的现代化处理，以及修复内部链接等问题，以提升数据集的可用性。

背景与挑战

背景概述

The Ethiopian News Headlines Corpus Collection（ENH）数据集是埃塞俄比亚新闻标题的语料库，涵盖了1989年至1997年间的新闻内容。该数据集最初由ENH.EthiopiaOnline.Net网站发布，随后扩展至EthioZena.Net和News.Com.Et等平台。ENH的创建旨在促进埃塞俄比亚的新闻自由，并通过在线发布为全球读者提供埃塞俄比亚的新闻内容。该数据集包含了来自126家报纸的13,079篇文章，是1998年阿姆哈拉语在线内容的主要来源之一。ENH的构建过程中，研究人员特别关注了文本中的错误检测与纠正，保留了原始文本中的拼写错误，以支持相关研究。该数据集对埃塞俄比亚新闻史、语言学研究以及数字档案保存具有重要价值。

当前挑战

ENH数据集在构建和应用过程中面临多重挑战。首先，数据集的核心任务是支持阿姆哈拉语的文本分析与错误检测，但由于文本中存在大量拼写错误，如何有效区分原始错误与录入错误成为一大难题。其次，数据集的构建依赖于手工录入和新闻机构提供的文件，这一过程耗时且易受人为错误影响。此外，数据集最初采用SERA编码系统，随着Unicode的普及，如何将旧有编码转换为现代标准格式成为技术上的挑战。最后，数据集的历史背景使其在政治敏感性方面存在潜在风险，如何在保护相关人员隐私的同时公开数据，也是需要谨慎处理的问题。

常用场景

经典使用场景

The Ethiopian News Headlines Corpus Collection（ENH）数据集在自然语言处理领域中被广泛用于研究阿姆哈拉语（Amharic）的文本处理技术。由于其包含了大量从1989年至1997年的新闻头条，该数据集为语言模型训练、文本分类、情感分析等任务提供了丰富的语料资源。特别是在阿姆哈拉语这一资源稀缺的语言环境中，ENH数据集为研究者提供了宝贵的实验数据。

解决学术问题

ENH数据集解决了阿姆哈拉语文本处理中的多个学术问题。首先，它为阿姆哈拉语的字符编码和文本转换提供了历史性的参考，尤其是在Unicode支持阿姆哈拉语之前，SERA编码的使用为文本的存储和传输提供了解决方案。其次，数据集中的拼写错误和排版问题为研究文本纠错和错误检测算法提供了独特的实验场景。这些问题的研究不仅推动了阿姆哈拉语的自然语言处理技术发展，也为其他低资源语言的文本处理提供了借鉴。

实际应用

在实际应用中，ENH数据集被广泛用于阿姆哈拉语的新闻分析、信息检索和机器翻译等领域。新闻机构可以利用该数据集进行历史新闻的数字化存档和检索，帮助研究人员和公众快速获取特定时期的新闻信息。此外，该数据集还为开发阿姆哈拉语的自动翻译工具提供了基础语料，促进了埃塞俄比亚与其他国家之间的信息交流和文化传播。

数据集最近研究