NewsSD-ENG

github2024-02-27 更新2024-05-31 收录

下载链接：

https://github.com/lt-nlp-lab-unibo/newssd-eng

下载链接

链接失效反馈

官方服务：

资源简介：

我们开发了新的句子级别主观性检测标注指南，这些指南不限于语言特定的提示。我们使用这些指南收集了NewsSD-ENG，一个包含638个客观句子和411个主观句子的语料库，这些句子是从英语新闻文章中提取的，涉及争议性话题。我们的语料库为英语及其他语言的主观性检测铺平了道路，无需依赖语言特定工具，如词典或机器翻译。

We developed novel sentence-level subjectivity detection annotation guidelines that are not restricted to language-specific prompts. Using these guidelines, we collected NewsSD-ENG, a corpus containing 638 objective sentences and 411 subjective sentences extracted from English news articles covering controversial topics. Our corpus paves the way for subjectivity detection in English and other languages without relying on language-specific tools such as lexicons or machine translation.

创建时间：

2024-02-27

原始信息汇总

数据集概述

数据集名称

NewsSD-ENG

数据集内容

类型: 句子级主观性检测
语言: 英语
来源: 从英语新闻文章中提取
规模: 包含638个客观句子和411个主观句子
应用: 用于主观性检测，不依赖于语言特定工具

数据集结构

文件夹: data
内容: 包含训练、验证和测试集，分为英语 (english) 和意大利语 (italian) 两个部分

注释指南

文件: data/guidelines.pdf
内容: 报告用于创建NewsSD-Eng的注释指南

实验与评估

实验代码: run_tests.py 和 models/BertMultilingual.py
评估模型: 包括SBERT、MBERT、SVM、LR
评估设置: 单语言、多语言和跨语言设置

结果

文件夹: results
内容: 包含论文中报告的所有实验结果

联系信息

联系人: Federico Ruggeri, Francesco Antici
邮箱: federico.ruggeri6@unibo.it, francesco.antici@unibo.it

搜集汇总

数据集介绍

构建方式

NewsSD-ENG数据集的构建基于一套新颖的句子级主观性检测标注指南，该指南不依赖于语言特定的线索。研究团队从涉及争议话题的英文新闻文章中提取了638个客观句子和411个主观句子，形成了这一语料库。通过这一过程，数据集为英语及其他语言的主观性检测提供了基础，避免了使用词汇表或机器翻译等语言特定工具。

特点

NewsSD-ENG数据集的特点在于其专注于句子级的主观性检测，涵盖了从英文新闻文章中提取的客观与主观句子。该数据集不仅适用于单语言环境，还支持多语言和跨语言设置，为研究提供了广泛的实验场景。此外，数据集还包含了对现有意大利语语料库的重新标注，进一步扩展了其应用范围。

使用方法

NewsSD-ENG数据集的使用方法主要通过提供的Python脚本`run_tests.py`实现。用户可以通过指定训练语言、测试语言以及模型类型来进行实验。支持的模型包括SBERT、MBERT、SVM和LR。用户可以进行单语言、跨语言或多语言的评估，具体命令示例已在README文件中详细列出。实验结果的再现与验证可通过运行脚本并调整参数实现。

背景与挑战

背景概述

NewsSD-ENG数据集由博洛尼亚大学的研究团队于2024年创建，旨在解决新闻文章中的句子级主观性检测问题。该数据集包含从英语新闻文章中提取的638个客观句子和411个主观句子，涵盖了多个争议性话题。研究团队开发了一套新颖的注释指南，这些指南不依赖于语言特定的线索，从而为英语及其他语言的主观性检测提供了新的研究路径。该数据集的发布为多语言环境下的主观性检测任务提供了重要的基准，推动了自然语言处理领域在这一方向上的发展。

当前挑战

NewsSD-ENG数据集在构建和应用过程中面临多重挑战。首先，主观性检测本身具有高度复杂性，尤其是在新闻文章中，句子的主观性往往隐含在语境中，难以通过简单的词汇或语法规则进行判断。其次，数据集的构建需要依赖人工标注，而标注过程中如何确保一致性和准确性是一个关键问题。研究团队通过开发详细的注释指南来应对这一挑战，但仍需面对标注者主观判断带来的偏差。此外，该数据集在多语言和跨语言环境下的应用也面临挑战，尤其是在缺乏语言特定工具的情况下，如何有效迁移模型性能仍需进一步探索。

常用场景

经典使用场景

NewsSD-ENG数据集在自然语言处理领域中，主要用于句子级别的主观性检测研究。通过对英语新闻文章中的句子进行标注，该数据集为研究者提供了一个标准化的基准，用于评估和比较不同模型在识别句子主观性方面的性能。特别是在多语言和跨语言环境下，NewsSD-ENG为模型训练和测试提供了丰富的数据支持。

解决学术问题

NewsSD-ENG数据集解决了在自然语言处理中句子级别主观性检测的难题。传统方法依赖于语言特定的工具，如词典或机器翻译，而该数据集通过新颖的标注指南，使得主观性检测不再受限于语言特定的线索。这一突破为多语言和跨语言的主观性检测研究提供了新的可能性，推动了该领域的进一步发展。

衍生相关工作

NewsSD-ENG数据集的发布，催生了一系列相关研究。例如，基于该数据集的多语言Transformer模型在主观性检测任务中表现出色，推动了多语言自然语言处理技术的发展。此外，该数据集还被用于跨语言主观性检测的研究，为不同语言之间的情感分析提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集