clef2025_checkthat_task1_subjectivity
收藏Hugging Face2025-07-19 更新2025-07-20 收录
下载链接:
https://huggingface.co/datasets/MatteoFasulo/clef2025_checkthat_task1_subjectivity
下载链接
链接失效反馈官方服务:
资源简介:
CLEF 2025 CheckThat! 实验室任务1:新闻文章中的主观性。该数据集旨在挑战系统能否区分新闻文章中的句子是表达了作者的主观观点,还是呈现了客观的观点。这是一个二分类任务,系统需要识别文本序列(句子或段落)是主观(SUBJ)还是客观(OBJ)。数据集包含多种语言的数据,包括英语、意大利语、德语、保加利亚语和阿拉伯语。数据格式为TSV文件,包含句子ID、文本和标签列。评估指标包括F1-macro、精确度、召回率和SUBJ类的F1分数。
CLEF 2025 CheckThat! 实验室任务1:新闻文章中的主观性。该数据集旨在挑战系统能否区分新闻文章中的句子是表达了作者的主观观点,还是呈现了客观的观点。这是一个二分类任务,系统需要识别文本序列(句子或段落)是主观(SUBJ)还是客观(OBJ)。数据集包含多种语言的数据,包括英语、意大利语、德语、保加利亚语和阿拉伯语。数据格式为TSV文件,包含句子ID、文本和标签列。评估指标包括F1-macro、精确度、召回率和SUBJ类的F1分数。
创建时间:
2025-07-18
原始信息汇总
CLEF‑2025 CheckThat! Lab Task 1: Subjectivity in News Articles 数据集概述
数据集基本信息
- 许可证: CC BY-NC-SA 4.0
- 任务类别: 文本分类
- 支持语言: 英语 (en)、阿拉伯语 (ar)、保加利亚语 (bg)、德语 (de)、希腊语 (el)、意大利语 (it)、波兰语 (pl)、罗马尼亚语 (ro)、乌克兰语 (uk)
- 标签: 主观性检测 (subjectivity-detection)、新闻文章 (news-articles)
- 数据集名称: CLEF 2025 CheckThat! Lab - Task 1: Subjectivity in News Articles
- 数据规模: 1K < n < 10K
数据集配置
- 阿拉伯语 (arabic): 包含 train、dev、dev_test、test 分割
- 保加利亚语 (bulgarian): 包含 train、dev、dev_test 分割
- 英语 (english): 包含 train、dev、dev_test、test 分割
- 德语 (german): 包含 train、dev、dev_test、test 分割
- 希腊语 (greek): 仅包含 test 分割
- 意大利语 (italian): 包含 train、dev、dev_test、test 分割
- 多语言 (multilingual): 包含 dev_test、test 分割
- 波兰语 (polish): 仅包含 test 分割
- 罗马尼亚语 (romanian): 仅包含 test 分割
- 乌克兰语 (ukrainian): 仅包含 test 分割
任务描述
- 任务类型: 二元分类任务
- 分类目标: 判断新闻文章中的句子是主观的 (SUBJ) 还是客观的 (OBJ)
- 任务设置:
- 单语言 (Monolingual): 在给定语言 L 上训练和测试
- 多语言 (Multilingual): 在多种语言上训练和测试
- 零样本 (Zero-shot): 在多种语言上训练并在未见语言上测试
数据集统计
- 英语:
- train: 830 句子 (532 OBJ, 298 SUBJ)
- dev: 462 句子 (222 OBJ, 240 SUBJ)
- dev-test: 484 句子 (362 OBJ, 122 SUBJ)
- 意大利语:
- train: 1613 句子 (1231 OBJ, 382 SUBJ)
- dev: 667 句子 (490 OBJ, 177 SUBJ)
- dev-test: 513 句子 (377 OBJ, 136 SUBJ)
- 德语:
- train: 800 句子 (492 OBJ, 308 SUBJ)
- dev: 491 句子 (317 OBJ, 174 SUBJ)
- dev-test: 337 句子 (226 OBJ, 111 SUBJ)
- 保加利亚语:
- train: 729 句子 (406 OBJ, 323 SUBJ)
- dev: 467 句子 (175 OBJ, 139 SUBJ)
- dev-test: 250 句子 (143 OBJ, 107 SUBJ)
- 阿拉伯语:
- train: 2446 句子 (1391 OBJ, 1055 SUBJ)
- dev: 742 句子 (266 OBJ, 201 SUBJ)
- dev-test: 748 句子 (425 OBJ, 323 SUBJ)
数据格式
- 输入格式: TSV 文件,包含三列:
- sentence_id: 句子 ID
- sentence: 句子文本
- label: OBJ 或 SUBJ
- 输出格式: TSV 文件,包含两列:
- sentence_id: 句子 ID
- label: OBJ 或 SUBJ
评估指标
- 主要指标: F1-macro
- 其他指标: SUBJ 类的 Precision、Recall、F1 以及宏平均分数
相关资源
- 评分器: 可在原始 GitLab 仓库 clef2025-checkthat-lab-task1 获取
- 基线模型: 使用 Sentence-BERT 多语言表示的逻辑回归模型
- 排行榜: 可在原始 GitLab 仓库 clef2025-checkthat-lab-task1 获取
相关论文
- 《On the Definition of Prescriptive Annotation Guidelines for Language-Agnostic Subjectivity Detection》
- 《A Corpus for Sentence-level Subjectivity Detection on English News Articles》
- 《ThatiAR: Subjectivity Detection in Arabic News Sentences》
引用信息
- ECIR 2025
- CLEF 2025 LNCS
- CLEF 2025 CEUR papers
- Task 1 overview paper
搜集汇总
数据集介绍

构建方式
在新闻文本分析领域,CLEF-2025 CheckThat! Lab Task 1数据集通过多语言标注策略构建,涵盖英语、阿拉伯语、保加利亚语等九种语言。数据采集自真实新闻语料,由专业团队按照严格标注规范进行人工标注,区分句子级主观性(SUBJ)与客观性(OBJ)标签。采用TSV结构化存储格式,每个样本包含句子ID、文本内容和二元标签,部分英语数据还标注了标注者分歧解决状态,确保数据质量与可追溯性。
特点
该数据集最显著的特征在于其多维度覆盖性,不仅包含1K-10K规模的多语言平行语料,还提供单语、多语和零样本三种实验设定。数据分布呈现语言差异性,如阿拉伯语训练集包含2446个句子而希腊语仅提供测试集。标注体系特别关注新闻文本的立场表达特性,英语数据额外保留标注过程中的冲突解决记录,为研究标注一致性提供独特视角。各语言子集均划分训练集、开发集和测试集,支持端到端的模型开发与评估。
使用方法
研究者可通过HuggingFace平台获取TSV格式数据集,按语言配置加载特定子集。模型开发需遵循指定输入输出格式:输入为含句子ID和文本的TSV文件,输出需预测标签并以相同格式提交。评估采用F1-macro核心指标,配套官方评测脚本支持结果验证。数据集特别适用于跨语言迁移学习研究,支持单语训练、多语联合训练及零样本迁移三种实验范式。基线模型提供基于Sentence-BERT的多语言逻辑回归实现,可作为模型性能对比基准。
背景与挑战
背景概述
CLEF-2025 CheckThat! Lab Task 1数据集专注于新闻文章中的主观性检测,旨在区分作者主观观点与客观事实陈述。该数据集由CLEF(Conference and Labs of the Evaluation Forum)于2025年推出,核心研究团队包括Federico Ruggeri、Arianna Muti等学者。数据集涵盖英语、阿拉伯语、保加利亚语等多语言新闻句子,标注为主观(SUBJ)或客观(OBJ),为自然语言处理领域提供了重要的跨语言研究资源。其创新性体现在零样本学习设定,推动了主观性检测模型的泛化能力研究。
当前挑战
该数据集面临双重挑战:在领域问题层面,主观性检测需克服语言文化差异导致的标注歧义,例如某些语言中含蓄表达与客观陈述的界限模糊;在构建层面,多语言数据平衡与标注一致性成为关键难题,尤其当标注者母语背景不同时,对主观性的理解差异显著。此外,小语种数据稀疏性限制了模型在零样本场景下的表现,而新闻文体多样性(如社论与报道混杂)进一步增加了分类难度。
常用场景
经典使用场景
在新闻媒体与自然语言处理交叉领域,该数据集为多语言文本主观性检测任务提供了标准化评估基准。其经典应用场景体现在训练模型对新闻句子进行主客观二分类,尤其适用于分析不同语言文化背景下作者观点的表达方式差异。通过包含英语、阿拉伯语等九种语言的标注数据,研究者能够系统性探索语言特性对主观性表达的影响机制。
解决学术问题
该数据集有效解决了跨语言主观性检测中的三大核心问题:语言特异性特征建模、低资源语言迁移学习,以及文化语境对观点表达的影响量化。其精心设计的零样本学习设定推动了领域适应方法的发展,而多维度标注体系(如英语数据中的注释冲突标记)为标注不一致性研究提供了珍贵素材,显著提升了NLP模型对文本隐含立场和偏见的识别能力。
衍生相关工作
基于该数据集衍生的经典研究包括《AI Wizards at CheckThat! 2025》提出的融合情感特征的Transformer改进方案,以及ThatiAR项目针对阿拉伯语特性的主观性检测框架。相关论文系统探讨了标注准则的语言无关性设计(Ruggeri等人)和英语新闻句级标注规范(Antici等人),推动了跨文化主观性检测方法论的发展。
以上内容由遇见数据集搜集并总结生成



