WikiBias

github2024-11-11 更新2024-11-23 收录

下载链接：

https://github.com/KarlaDSJ/WikiBias-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

WikiBias是一个用于偏见检测的数据集，旨在训练机器学习模型以检测句子中的主观性，并能有效推广到其他领域。

WikiBias is a dataset for bias detection, designed to train machine learning models to detect subjectivity in sentences and effectively generalize to other domains.

创建时间：

2024-11-08

原始信息汇总

WikiBias 数据集

概述

WikiBias 数据集用于探索是否可以使用维基百科数据训练机器学习模型，以检测句子中的主观性，并有效地推广到其他领域。

数据文件

data.zip
lexicon.zip

引用

@inproceedings{salas-jimenez-etal-2024-wikibias, title = "{W}iki{B}ias as an Extrapolation Corpus for Bias Detection", author = "Salas-Jimenez, K. and Lopez-Ponce, Francisco Fernando and Ojeda-Trueba, Sergio-Luis and Bel-Enguix, Gemma", editor = "Lucie-Aim{e}e, Lucie and Fan, Angela and Gwadabe, Tajuddeen and Johnson, Isaac and Petroni, Fabio and van Strien, Daniel", booktitle = "Proceedings of the First Workshop on Advancing Natural Language Processing for Wikipedia", month = nov, year = "2024", address = "Miami, Florida, USA", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2024.wikinlp-1.10", pages = "46--52", abstract = "This paper explores whether it is possible to train a machine learning model using Wikipedia data to detect subjectivity in sentences and generalize effectively to other domains. To achieve this, we performed experiments with the WikiBias corpus, the BABE corpus, and the CheckThat! Dataset. Various classical models for ML were tested, including Logistic Regression, SVC, and SVR, including characteristics such as Sentence Transformers similarity, probabilistic sentiment measures, and biased lexicons. Pre-trained models like DistilRoBERTa, as well as large language models like Gemma and GPT-4, were also tested for the same classification task.", }

搜集汇总

数据集介绍

构建方式

在构建WikiBias数据集时，研究者们从维基百科中提取了大量文本数据，旨在通过这些数据训练机器学习模型以检测句子中的主观性。该数据集的构建不仅依赖于维基百科的内容，还结合了BABE语料库和CheckThat!数据集，以确保模型能够有效泛化到其他领域。通过整合这些资源，研究者们设计了一系列实验，测试了包括逻辑回归、支持向量机和向量回归在内的多种经典机器学习模型，以及预训练模型如DistilRoBERTa和大型语言模型如Gemma和GPT-4。

特点

WikiBias数据集的主要特点在于其跨领域的泛化能力。通过结合维基百科、BABE语料库和CheckThat!数据集，该数据集不仅涵盖了广泛的主题和语言风格，还引入了多种特征，如句子转换器的相似性、概率情感测量和偏见词典，从而增强了模型的鲁棒性和准确性。此外，该数据集还支持多种预训练和大型语言模型的应用，为研究者提供了丰富的实验平台。

使用方法

使用WikiBias数据集时，用户首先需要解压data.zip和lexicon.zip文件，然后可以通过提供的Notebook进行数据加载和预处理。该数据集适用于多种机器学习模型的训练和评估，特别是那些旨在检测文本主观性和偏见的任务。用户可以根据具体需求选择不同的模型和特征组合，进行实验和分析。此外，该数据集还支持与预训练模型如DistilRoBERTa和大型语言模型如Gemma和GPT-4的集成，以进一步提升模型的性能和适应性。

背景与挑战

背景概述

WikiBias数据集由Salas-Jimenez等人于2024年创建，旨在探索利用维基百科数据训练机器学习模型以检测句子中的主观性，并有效推广至其他领域。该研究在EMNLP2024会议上发表，主要研究人员包括Salas-Jimenez、Lopez-Ponce、Ojeda-Trueba和Bel-Enguix。其核心研究问题在于验证机器学习模型在跨领域偏见检测中的有效性，对自然语言处理领域具有重要影响，特别是在偏见检测和文本主观性分析方面。

当前挑战

WikiBias数据集面临的挑战包括：首先，如何从维基百科数据中有效提取和标注主观性信息，以确保训练数据的准确性和代表性。其次，模型在跨领域应用时的泛化能力，即如何在不同语境和领域中保持偏见检测的准确性。此外，构建过程中还需解决数据集的多样性和覆盖范围问题，以确保模型能够应对各种语言和文化的挑战。

常用场景

经典使用场景

在自然语言处理领域，WikiBias数据集被广泛用于训练机器学习模型以检测句子中的主观性。通过利用Wikipedia数据，研究者能够构建模型，使其不仅在维基百科文本中表现出色，还能有效泛化到其他领域。这种跨领域的泛化能力使得WikiBias成为偏见检测研究中的重要工具，尤其是在需要处理多源文本数据的场景中。

解决学术问题

WikiBias数据集解决了在多领域文本中检测主观性和偏见的核心学术问题。通过提供丰富的维基百科数据，该数据集帮助研究者训练出能够识别和量化文本中主观性的模型，从而推动了偏见检测技术的发展。这不仅提升了文本分析的准确性，还为跨领域研究提供了坚实的基础，具有深远的学术意义和影响。

衍生相关工作

基于WikiBias数据集，研究者们开展了一系列相关工作，包括开发新的偏见检测算法和改进现有的自然语言处理模型。例如，一些研究利用该数据集训练的模型来评估和提升大型语言模型（如GPT-4）在偏见检测任务中的表现。此外，WikiBias还激发了对多语言偏见检测的研究，推动了跨文化和跨语言文本分析技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集