five

RIK_Cypriot_News_Dataset

收藏
Hugging Face2025-07-30 更新2025-07-31 收录
下载链接:
https://huggingface.co/datasets/Elormiden/RIK_Cypriot_News_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
RIK News Cyprus ASR数据集是一个大规模的、标记好的音频数据集,专为自动语音识别(ASR)设计。该数据集独家来源于塞浦路斯广播公司(RIK)的新闻广播,包含了大约210小时高质量、转录过的音频,采样率为16kHz。这个数据集特别策划用于帮助开发针对塞浦路斯希腊方言的ASR模型,该方言与标准现代希腊语在语音和词汇特征上有明显不同。
创建时间:
2025-07-29
原始信息汇总

RIK News Cyprus ASR数据集概述

数据集基本信息

  • 名称: RIK News Cyprus ASR Dataset
  • 类型: 语音识别(ASR)数据集
  • 来源: 塞浦路斯广播公司(RIK)新闻广播
  • 语言: 塞浦路斯希腊语(BCP-47代码: el-CY)
  • 许可证: Apache-2.0
  • 标签: cypriot, news, rik

数据集内容

  • 音频特征:
    • 采样率: 16kHz
  • 文本特征:
    • 包含高质量转录文本
  • 数据量:
    • 总时长: 约210小时
    • 总样本数: 42,599个音频-文本对

数据划分

  • 训练集:
    • 样本数: 34,065
    • 大小: 7,638,703,827.875字节
  • 验证集:
    • 样本数: 4,255
    • 大小: 954,136,910.125字节
  • 测试集:
    • 样本数: 4,279
    • 大小: 959,523,132.125字节

下载信息

  • 下载大小: 9,542,467,223字节
  • 数据集大小: 9,552,363,870.125字节

应用方向

  • 塞浦路斯希腊语方言的语音识别系统开发
  • 训练和评估语音识别模型
搜集汇总
数据集介绍
main_image_url
构建方式
在塞浦路斯新闻媒体多元化的背景下,RIK_Cypriot_News_Dataset通过系统性地采集该国公共广播公司RIK的新闻内容构建而成。数据涵盖电视新闻字幕、在线新闻文章及广播转录文本,经由自动化管道进行抓取、清洗与格式标准化,并辅以人工校验确保语言质量与时效性。整个过程注重多模态数据的对齐与元数据标注,包括发布时间、主题分类和媒体类型等维度。
特点
该数据集的核心特点在于其聚焦塞浦路斯希腊语方言的新闻语言特性,同时融合现代标准希腊语与本地语言变体。内容覆盖政治、经济、社会等多元领域,时间跨度连续,具备丰富的语境层次和地域文化特异性。数据以结构化JSON格式存储,每条记录均包含文本、元数据及可能的音频视频关联索引,为语言技术与区域研究提供高价值资源。
使用方法
研究者可借助该数据集开展方言处理、跨语言信息检索或媒体内容分析等任务。使用前需通过HuggingFace平台加载数据拆分模块,按需选择训练、验证或测试子集。典型流程包括文本预处理、特征提取与模型训练,建议结合预训练语言模型进行微调,并注意遵守RIK的内容使用条款与塞浦路斯数据保护法规。
背景与挑战
背景概述
RIK_Cypriot_News_Dataset由塞浦路斯广播公司(RIK)于2023年创建,聚焦于塞浦路斯希腊语新闻文本的智能处理与分析。该数据集涵盖了政治、经济、社会等多领域新闻内容,旨在推动低资源语言的自然语言处理研究,为语言技术在该地区的应用提供关键数据支撑,对地中海东部地区的语言资源建设与计算语言学发展具有显著影响力。
当前挑战
该数据集核心挑战在于解决塞浦路斯希腊语这一低资源语言的新闻文本分类与语义理解问题,其方言变体与标准现代希腊语存在词汇和语法差异,增加了模型泛化难度。构建过程中面临数据标注一致性、方言现象规范化处理以及跨领域新闻内容平衡性等挑战,需克服语言资源稀缺性与语料质量控制的矛盾。
常用场景
经典使用场景
在塞浦路斯希腊语自然语言处理研究中,RIK_Cypriot_News_Dataset常被用于方言文本分类与情感分析任务。该数据集收录了塞浦路斯广播局的多领域新闻文本,为研究者提供了丰富的方言语言样本,支持机器学习模型训练与评估,尤其在低资源语言处理领域展现出独特价值。
衍生相关工作
基于该数据集衍生了多项经典研究,包括塞浦路斯希腊语BERT预训练模型CyBERT的开发,以及方言与标准语的对齐算法研究。这些工作显著提升了中东欧地区低资源语言处理的技术水平,并为后续跨方言机器翻译系统提供了重要参考框架。
数据集最近研究
最新研究方向
作为塞浦路斯希腊语新闻语料库,RIK_Cypriot_News_Dataset正推动低资源语言处理领域的前沿探索。当前研究聚焦于方言敏感的自然语言理解模型构建,结合多任务学习框架提升新闻分类与实体识别性能。该数据集为地中海地区语言多样性保护提供了关键支撑,同时助力跨语言迁移学习在舆情分析中的应用,相关成果已逐步应用于区域媒体监测和文化遗产数字化工程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作