bcms-claim-sentences

Hugging Face2025-07-15 更新2025-07-16 收录

下载链接：

https://huggingface.co/datasets/toni5rovic/bcms-claim-sentences

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个针对塞尔维亚语、克罗地亚语、波斯尼亚语、波斯尼亚-塞尔维亚语和中文的声明句检测数据集，用于文本分类任务，包含假新闻、声明检测和事实核查的标签。数据集大小在10K到100K之间。

创建时间：

2025-07-13

原始信息汇总

数据集概述

基本信息

名称: Claim Sentence Detection in Serbo-Croatian
许可证: CC-BY-4.0
语言:
- 塞尔维亚语 (sr)
- 克罗地亚语 (hr)
- 波斯尼亚语 (bs)
- 塞尔维亚-克罗地亚语 (hbs)
- 中文 (cn)
任务类别: 文本分类 (text-classification)
标签:
- 假新闻 (fake-news)
- 声明检测 (claim-detection)
- 事实核查 (fact-checking)
数据规模: 10K < n < 100K

搜集汇总

数据集介绍

构建方式

在假新闻检测的研究领域中，bcms-claim-sentences数据集的构建采用了多语言文本挖掘策略，专注于塞尔维亚-克罗地亚语系的声明句子识别。通过从公开可用的新闻源和事实核查报告中系统收集语料，研究团队运用自然语言处理技术对句子进行标注，确保每个句子均被分类为声明或非声明类别。这一过程结合了人工验证与自动化工具，以提升数据质量和一致性，最终形成了覆盖多种方言变体的结构化数据集。

使用方法

使用bcms-claim-sentences数据集时，研究人员可将其应用于文本分类模型的开发与评估，特别是在假新闻和声明检测领域。通过加载数据集中的句子和对应标签，用户可以训练机器学习或深度学习模型，进行二进制分类任务（声明vs非声明）。数据集支持多语言处理，鼓励跨语言实验，以推动事实核查技术的进步，使用时需遵循CC-BY-4.0许可协议，确保学术和商业应用的合规性。

背景与挑战

背景概述

在数字信息时代，虚假新闻检测成为自然语言处理领域的关键研究方向。bcms-claim-sentences数据集由研究团队于近年构建，专注于塞尔维亚-克罗地亚语系的声称句子检测，涵盖塞尔维亚语、克罗地亚语、波斯尼亚语等变种。该数据集旨在支持多语言虚假新闻识别研究，通过文本分类技术辅助事实核查系统的发展，对巴尔干地区的媒体可信度评估与信息生态治理具有重要实践意义。

当前挑战

该数据集核心挑战在于解决低资源语言环境下声称句子的精准识别问题，包括语言变体的语法差异处理、跨文化语境中声称表达的歧义消解，以及有限标注资源下的模型泛化能力提升。构建过程中面临多方言语料收集与标准化困难、人工标注一致性的保障，以及噪声数据清洗等关键技术障碍，这些因素共同增加了数据集构建的复杂度与学术价值。

常用场景

经典使用场景

在虚假新闻检测领域，该数据集为塞尔维亚-克罗地亚语系的声明句识别提供了关键资源。研究者通常利用其标注框架，训练深度学习模型从新闻文本中精准分离出包含事实主张的句子，为后续事实核查奠定基础。该场景显著提升了多语言环境下虚假信息分析的效率。

解决学术问题

该数据集有效解决了低资源语言事实核查中的标注数据稀缺问题。通过提供跨塞尔维亚语、克罗地亚语等语言的标准化标注，它支持了跨语言声明检测模型的对比研究，推动了计算语言学在巴尔干地区的应用发展，为多语言信息可信度评估建立了新的研究范式。

实际应用

实际应用中，媒体机构和事实核查平台利用该数据集训练的模型，自动扫描新闻内容中的可疑声明句。这种技术已集成到多语言新闻监控系统中，能够实时识别塞尔维亚-克罗地亚语社区传播的潜在虚假信息，辅助人工核查员优先处理高风险内容，提升信息治理效率。

数据集最近研究