five

ghana-news-twi

收藏
Hugging Face2025-08-27 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/ik/ghana-news-twi
下载链接
链接失效反馈
官方服务:
资源简介:
Ghana News (Twi) 数据集是一个简短、清洗过的加纳新闻翻译成**Twi**语言的语料库。该数据集来源于worldboss/ghana-news数据集,经过列向翻译和轻微规范化,以便于NLP应用。数据集包含一个训练集划分,每个条目包括标题和内容两列,内容可能因清洗过程而有所不同。
创建时间:
2025-08-27
原始信息汇总

数据集概述

基本信息

  • 数据集名称: ghana-news-twi
  • 语言: 契维语 (twi, akan)
  • 标签: 新闻、加纳、翻译、自然语言处理、文本分类、契维语、阿坎语
  • 任务类别: 文本生成、翻译

数据内容

  • 数据来源: 基于 worldboss/ghana-news 数据集聚合并进行翻译处理
  • 数据描述: 加纳新闻的契维语翻译版本,经过清理和规范化处理,适用于自然语言处理任务
  • 列信息:
    • title (ak): 新闻标题(可能为空)
    • content (ak): 文章正文(必需字段)

技术规格

  • 特征结构:
    • title: string 类型
    • content: string 类型
  • 数据分割: 仅包含 train 分割
  • 样本数量: 24,925 条
  • 数据集大小: 50,758,687 字节
  • 下载大小: 21,021,857 字节

处理流程

  • 翻译方法: 使用 deep_translator.GoogleTranslator 进行自动翻译(源语言自动检测,目标语言为 ak)
  • 文本处理: 长文本分割为约 4,800 字符的块进行翻译,然后拼接
  • 清理操作: 所有文本字段进行空白字符修剪

使用方式

python from datasets import load_dataset ds = load_dataset("ik/ghana-news-twi", split="train")

搜集汇总
数据集介绍
main_image_url
构建方式
在加纳新闻文本处理领域,该数据集基于原始英语新闻语料进行系统构建,通过自动化翻译流程将内容转化为契维语。采用深度翻译工具进行批量处理,针对长文本实施分块翻译策略以确保语义连贯性,最后经过文本标准化处理形成最终语料。
特点
该数据集呈现加纳本土新闻的多维度特征,包含标题与正文的双字段契维语文本,所有内容均经过语言一致性校验。数据规模达数万条,文本质量经过清洗处理,支持自然语言处理任务中的跨语言研究,特别是低资源语言的技术探索。
使用方法
研究者可通过标准数据集加载接口快速获取该资源,支持直接调用训练分割进行模型训练或分析。数据以结构化格式存储,兼容主流自然语言处理框架,适用于机器翻译、文本分类等任务的实验与评估。
背景与挑战
背景概述
加纳新闻(Twi)翻译数据集由研究团队于现代自然语言处理技术快速发展时期构建,专注于非洲语言资源的开发与丰富。该数据集源自worldboss/加纳新闻数据集的英语新闻内容,通过系统翻译转化为Twi语(阿坎语的一种方言),旨在支持低资源语言的机器翻译与文本生成任务。其主要研究人员通过集成自动化翻译工具与人工校对流程,致力于解决非洲语言在数字化时代的代表性不足问题,为跨语言信息检索与语义分析研究提供了重要基础。
当前挑战
该数据集核心挑战在于低资源语言机器翻译的准确性保障,Twi语缺乏大规模平行语料库,导致翻译模型面临语义歧义与文化特定表达的处理困难。构建过程中,长文本的分块翻译与重新拼接引入了上下文连贯性破坏的风险,且自动化翻译工具对非洲语言的支持有限,需额外进行文本规范化与噪音清理。此外,新闻领域术语与地域文化的适配性要求较高,增加了数据质量控制的复杂度。
常用场景
经典使用场景
在非洲语言计算研究领域,该数据集为特维语(Twi)自然语言处理任务提供了重要资源支撑。研究者通常将其用于机器翻译模型的训练与评估,特别是在英语与特维语之间的双向翻译任务中展现出色性能。同时该数据集支持文本分类和主题建模研究,为低资源语言的信息处理技术发展提供了实证基础。
衍生相关工作
该数据集催生了多项重要研究工作,包括基于特维语-英语双语对齐的神经机器翻译系统开发,以及针对低资源语言的跨语言预训练模型优化。相关研究团队进一步构建了特维语语言模型评估基准,并衍生出面向特定领域的术语词典和语法分析工具,形成了完整的特维语自然语言处理技术生态体系。
数据集最近研究
最新研究方向
在非洲语言NLP资源稀缺的背景下,加纳特维语新闻数据集ghana-news-twi为低资源语言处理研究提供了重要支撑。当前研究聚焦于跨语言迁移学习与神经机器翻译模型的性能优化,学者们通过该数据集探索多语言预训练模型在特维语上的微调效果,推动语言技术在地域性媒体内容分析和信息传播中的应用。该数据集亦助力于非洲本土语言的情感分析与事实核查任务,对促进数字时代语言平等及文化多样性保护具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作