MisinformationCorpusSinhala
收藏github2022-11-23 更新2024-05-31 收录
下载链接:
https://github.com/LIRNEasia/MisinformationCorpusSinhala
下载链接
链接失效反馈官方服务:
资源简介:
一个包含3576份Sinhala文档的数据集,这些文档来自斯里兰卡的新闻网站和事实核查操作,并被标注为CREDIBLE, FALSE, PARTIAL或UNCERTAIN。数据集包含文档内容、分类、文档来源的网站域名以及发布日期等标记。
A dataset comprising 3,576 Sinhala documents sourced from Sri Lankan news websites and fact-checking operations, annotated with labels such as CREDIBLE, FALSE, PARTIAL, or UNCERTAIN. The dataset includes document content, classification, the domain name of the source website, and the publication date.
创建时间:
2021-07-16
原始信息汇总
MisinformationCorpusSinhala 数据集概述
数据集描述
- 文档数量:3576篇
- 语言:Sinhala
- 来源:斯里兰卡新闻网站和事实核查操作
- 标注类型:CREDIBLE, FALSE, PARTIAL, UNCERTAIN
- 附加信息:每篇文档包含内容标记、分类、来源网站域名及发布日期
使用许可
- 许可类型:CC BY 4.0
- 允许用途:允许重新分发、修改、基于原作创作,包括商业用途,需注明原作者
引用信息
@misc{jayawickrama2021sinhala, title={A corpus and machine learning models for fake news classification in sinhala}, author={Vihanga Jayawickrama, Asanka Ranasinghe, Dimuthu C. Attanayake, and Yudhanjaya Wijeratne, year={2021}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

构建方式
MisinformationCorpusSinhala数据集的构建基于从斯里兰卡新闻网站和事实核查机构收集的3576份僧伽罗语文档。每份文档均经过人工标注,分类为可信(CREDIBLE)、虚假(FALSE)、部分真实(PARTIAL)或不确定(UNCERTAIN)。数据集不仅包含文档内容,还记录了文档来源的网站域名及其发布日期,确保了数据的完整性和可追溯性。构建过程中,研究人员采用了严格的标注流程,以确保数据的高质量和一致性。
特点
该数据集的特点在于其专注于僧伽罗语这一特定语言环境下的虚假信息检测,填补了该领域的数据空白。数据集不仅提供了丰富的文本内容,还包含了详细的元数据,如来源网站和发布日期,为研究者提供了多维度的分析视角。此外,数据集的标注类别涵盖了从完全可信到完全虚假的多种信息状态,使得其适用于多种机器学习任务,尤其是虚假新闻分类和自然语言处理研究。
使用方法
MisinformationCorpusSinhala数据集的使用方法灵活多样,适用于学术研究和商业应用。研究者可以通过该数据集训练和评估机器学习模型,尤其是针对僧伽罗语文本的虚假信息检测模型。数据集以CC BY 4.0许可证发布,允许用户自由分发、改编和商业使用,仅需注明原始创作者。用户可通过引用相关论文的方式,确保学术使用的规范性。此外,数据集的元数据信息为跨领域研究提供了便利,例如结合时间序列分析或网络传播研究。
背景与挑战
背景概述
MisinformationCorpusSinhala数据集由斯里兰卡的研究人员于2021年创建,主要贡献者包括Vihanga Jayawickrama、Asanka Ranasinghe、Dimuthu C. Attanayake和Yudhanjaya Wijeratne。该数据集包含3576份僧伽罗语文档,来源于斯里兰卡的新闻网站和事实核查机构,标注为可信(CREDIBLE)、虚假(FALSE)、部分真实(PARTIAL)或不确定(UNCERTAIN)。该数据集的构建旨在支持僧伽罗语假新闻分类的研究,为自然语言处理领域提供了重要的语言资源。其研究成果发表于LIRNEasia,展示了机器学习模型在僧伽罗语假新闻分类中的应用效果,对南亚地区的语言技术发展具有重要影响。
当前挑战
MisinformationCorpusSinhala数据集在构建和应用中面临多重挑战。首先,僧伽罗语作为一种低资源语言,缺乏高质量的标注数据,这为数据集的构建增加了难度。其次,假新闻的多样性和复杂性使得标注过程需要高度的专业性和细致性,以确保分类的准确性。此外,数据集中部分文档因未知原因损坏,尽管已通过修复恢复,但仍可能影响数据的完整性和一致性。在应用层面,如何有效利用该数据集训练机器学习模型以应对僧伽罗语假新闻的多样性,仍是一个亟待解决的技术难题。
常用场景
经典使用场景
MisinformationCorpusSinhala数据集在自然语言处理领域中被广泛用于训练和评估机器学习模型,特别是针对僧伽罗语(Sinhala)的虚假新闻检测任务。该数据集包含3576篇来自斯里兰卡新闻网站和事实核查机构的文档,标注为可信、虚假、部分真实或不确定,为研究者提供了丰富的语言样本和标注信息。通过该数据集,研究者能够开发出更精准的文本分类模型,以应对僧伽罗语环境中虚假信息的传播问题。
实际应用
在实际应用中,MisinformationCorpusSinhala数据集被用于构建自动化的事实核查工具和虚假新闻检测系统。这些工具可以帮助新闻机构、社交媒体平台和政府机构快速识别和过滤虚假信息,从而减少虚假新闻对社会的影响。特别是在斯里兰卡等僧伽罗语为主要语言的国家,该数据集的应用能够显著提升信息传播的透明度和可信度。
衍生相关工作
基于MisinformationCorpusSinhala数据集,研究者已经开发了多种机器学习模型和算法,用于僧伽罗语文本分类和虚假新闻检测。例如,相关研究提出了基于深度学习的分类方法,显著提升了模型的准确性和鲁棒性。此外,该数据集还被用于跨语言虚假新闻检测的研究,推动了多语言信息可信度评估领域的发展。这些衍生工作进一步扩展了数据集的应用范围,并为相关领域的研究提供了新的思路。
以上内容由遇见数据集搜集并总结生成



