ghana-news-twi

Hugging Face2025-08-27 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/ik/ghana-news-twi

下载链接

链接失效反馈

官方服务：

资源简介：

Ghana News (Twi) 数据集是一个简短、清洗过的加纳新闻翻译成**Twi**语言的语料库。该数据集来源于worldboss/ghana-news数据集，经过列向翻译和轻微规范化，以便于NLP应用。数据集包含一个训练集划分，每个条目包括标题和内容两列，内容可能因清洗过程而有所不同。

创建时间：

2025-08-27

原始信息汇总

数据集概述

基本信息

数据集名称: ghana-news-twi
语言: 契维语 (twi, akan)
标签: 新闻、加纳、翻译、自然语言处理、文本分类、契维语、阿坎语
任务类别: 文本生成、翻译

数据内容

数据来源: 基于 worldboss/ghana-news 数据集聚合并进行翻译处理
数据描述: 加纳新闻的契维语翻译版本，经过清理和规范化处理，适用于自然语言处理任务
列信息:
- title (ak): 新闻标题（可能为空）
- content (ak): 文章正文（必需字段）

技术规格

特征结构:
- title: string 类型
- content: string 类型
数据分割: 仅包含 train 分割
样本数量: 24,925 条
数据集大小: 50,758,687 字节
下载大小: 21,021,857 字节

处理流程

翻译方法: 使用 deep_translator.GoogleTranslator 进行自动翻译（源语言自动检测，目标语言为 ak）
文本处理: 长文本分割为约 4,800 字符的块进行翻译，然后拼接
清理操作: 所有文本字段进行空白字符修剪

使用方式

python from datasets import load_dataset ds = load_dataset("ik/ghana-news-twi", split="train")

搜集汇总

数据集介绍

构建方式

在加纳新闻文本处理领域，该数据集基于原始英语新闻语料进行系统构建，通过自动化翻译流程将内容转化为契维语。采用深度翻译工具进行批量处理，针对长文本实施分块翻译策略以确保语义连贯性，最后经过文本标准化处理形成最终语料。

特点

该数据集呈现加纳本土新闻的多维度特征，包含标题与正文的双字段契维语文本，所有内容均经过语言一致性校验。数据规模达数万条，文本质量经过清洗处理，支持自然语言处理任务中的跨语言研究，特别是低资源语言的技术探索。

使用方法

研究者可通过标准数据集加载接口快速获取该资源，支持直接调用训练分割进行模型训练或分析。数据以结构化格式存储，兼容主流自然语言处理框架，适用于机器翻译、文本分类等任务的实验与评估。

背景与挑战

背景概述

加纳新闻（Twi）翻译数据集由研究团队于现代自然语言处理技术快速发展时期构建，专注于非洲语言资源的开发与丰富。该数据集源自worldboss/加纳新闻数据集的英语新闻内容，通过系统翻译转化为Twi语（阿坎语的一种方言），旨在支持低资源语言的机器翻译与文本生成任务。其主要研究人员通过集成自动化翻译工具与人工校对流程，致力于解决非洲语言在数字化时代的代表性不足问题，为跨语言信息检索与语义分析研究提供了重要基础。

当前挑战

该数据集核心挑战在于低资源语言机器翻译的准确性保障，Twi语缺乏大规模平行语料库，导致翻译模型面临语义歧义与文化特定表达的处理困难。构建过程中，长文本的分块翻译与重新拼接引入了上下文连贯性破坏的风险，且自动化翻译工具对非洲语言的支持有限，需额外进行文本规范化与噪音清理。此外，新闻领域术语与地域文化的适配性要求较高，增加了数据质量控制的复杂度。

常用场景

经典使用场景

在非洲语言计算研究领域，该数据集为特维语（Twi）自然语言处理任务提供了重要资源支撑。研究者通常将其用于机器翻译模型的训练与评估，特别是在英语与特维语之间的双向翻译任务中展现出色性能。同时该数据集支持文本分类和主题建模研究，为低资源语言的信息处理技术发展提供了实证基础。

衍生相关工作

该数据集催生了多项重要研究工作，包括基于特维语-英语双语对齐的神经机器翻译系统开发，以及针对低资源语言的跨语言预训练模型优化。相关研究团队进一步构建了特维语语言模型评估基准，并衍生出面向特定领域的术语词典和语法分析工具，形成了完整的特维语自然语言处理技术生态体系。

数据集最近研究