NLPC-UOM/Sinhala-News-Source-classification
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NLPC-UOM/Sinhala-News-Source-classification
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从9个斯里兰卡新闻源(如Sri Lanka Army, Dinamina等)提取的Sinhala新闻标题。数据集是经过处理的,去除了单字句和无效字符,并进行了子采样子以解决类别不平衡问题。适用于Sinhala文本分类任务。
注释创建者:无
语言创建方式:众包
语言:僧伽罗语(Sinhala)
许可证:MIT许可证
多语言属性:单语种
数据集名称:僧伽罗语新闻来源分类
样本规模类别:无
源数据集:无
任务类别:文本分类(text-classification)
任务子类别:无
本数据集包含从9家新闻源(网站)提取的僧伽罗语新闻标题,涉及的新闻源包括斯里兰卡陆军、Dinamina、GossipLanka、Hiru、ITN、Lankapuwath、NewsLK、Newsfirst以及世界社会主义网站僧伽罗语版。本数据集是Sachintha D.、Piyarathna L.、Rajitha C.与Ranathunga S.(2021年)在论文《利用平行语料库改进基于多语言嵌入的文档与句子对齐》中构建的语料库的处理版本。原始提取的语料库已移除单字句与无效字符,并通过下采样操作处理了类别不平衡问题。
若使用本数据集,请引用以下论文:*Dhananjaya等. 《将BERT应用于僧伽罗语——僧伽罗语文本分类预训练语言模型综合分析》, 2022*
提供机构:
NLPC-UOM
原始信息汇总
数据集概述
基本信息
- 名称: sinhala-news-source-classification
- 语言: 单一语言(Sinhala)
- 许可证: MIT
- 任务类别: 文本分类
数据内容
- 来源: 包含从9个新闻源提取的Sinhala新闻标题,包括Sri Lanka Army, Dinamina, GossipLanka, Hiru, ITN, Lankapuwath, NewsLK, Newsfirst, World Socialist Web Site-Sinhala。
- 处理: 该数据集是对原始语料库的加工版本,已移除单字句和无效字符,并进行了子采样以处理类别不平衡问题。
引用信息
- 引用文献: Dhananjaya et al. BERTifying Sinhala - A Comprehensive Analysis of Pre-trained Language Models for Sinhala Text Classification, 2022



