task317_crows-pairs_classification_stereotype_type

Name: task317_crows-pairs_classification_stereotype_type
Creator: Lots of LoRAs
Published: 2025-01-02 23:01:27
License: 暂无描述

Hugging Face2025-01-02 更新2025-01-04 收录

下载链接：

https://huggingface.co/datasets/Lots-of-LoRAs/task317_crows-pairs_classification_stereotype_type

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'Natural Instructions'，主要用于文本生成任务，特别是与刻板印象分类相关的任务。数据集包含1200个训练样本、150个验证样本和150个测试样本。每个样本包含输入、输出和ID三个特征。数据集由众包方式创建，语言为英语，使用Apache 2.0许可证。

提供机构：

Lots of LoRAs

创建时间：

2025-01-02

原始信息汇总

数据集概述

数据集基本信息

数据集名称: task317_crows-pairs_classification_stereotype_type
任务类别: 文本生成
语言: 英语 (en)
许可证: Apache-2.0
创建者: 众包
数据集主页: https://github.com/allenai/natural-instructions
相关论文:
- Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks
- Compress then Serve: Serving Thousands of LoRA Adapters with Little Overhead
联系人: Rickard Brüel Gabrielsson

数据集结构

特征:
- input: 字符串类型
- output: 字符串类型
- id: 字符串类型
数据划分:
- train: 1200 个样本
- valid: 150 个样本
- test: 150 个样本

引用信息

如果您在发表的研究中使用该数据集，请引用以下论文： bibtex @misc{wang2022supernaturalinstructionsgeneralizationdeclarativeinstructions, title={Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks}, author={Yizhong Wang and Swaroop Mishra and Pegah Alipoormolabashi and Yeganeh Kordi and Amirreza Mirzaei and Anjana Arunkumar and Arjun Ashok and Arut Selvan Dhanasekaran and Atharva Naik and David Stap and Eshaan Pathak and Giannis Karamanolakis and Haizhi Gary Lai and Ishan Purohit and Ishani Mondal and Jacob Anderson and Kirby Kuznia and Krima Doshi and Maitreya Patel and Kuntal Kumar Pal and Mehrad Moradshahi and Mihir Parmar and Mirali Purohit and Neeraj Varshney and Phani Rohitha Kaza and Pulkit Verma and Ravsehaj Singh Puri and Rushang Karia and Shailaja Keyur Sampat and Savan Doshi and Siddhartha Mishra and Sujan Reddy and Sumanta Patro and Tanay Dixit and Xudong Shen and Chitta Baral and Yejin Choi and Noah A. Smith and Hannaneh Hajishirzi and Daniel Khashabi}, year={2022}, eprint={2204.07705}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2204.07705}, }

更多详细信息请参考以下论文： bibtex @misc{brüelgabrielsson2024compressserveservingthousands, title={Compress then Serve: Serving Thousands of LoRA Adapters with Little Overhead}, author={Rickard Brüel-Gabrielsson and Jiacheng Zhu and Onkar Bhardwaj and Leshem Choshen and Kristjan Greenewald and Mikhail Yurochkin and Justin Solomon}, year={2024}, eprint={2407.00066}, archivePrefix={arXiv}, primaryClass={cs.DC}, url={https://arxiv.org/abs/2407.00066}, }

联系方式

如有任何问题或意见，请联系 Rickard Brüel Gabrielsson

搜集汇总

数据集介绍

构建方式

task317_crows-pairs_classification_stereotype_type数据集的构建采用了众包方式，通过广泛的社区参与来收集和标注数据。该数据集主要聚焦于文本生成任务，涵盖了英语语言环境下的多种文本样本。数据集的构建过程严格遵循了科学研究的规范，确保了数据的多样性和代表性，从而为研究提供了坚实的基础。

特点

该数据集的特点在于其专注于文本生成任务，特别是针对刻板印象类型的分类。数据集包含了1200个训练样本、150个验证样本和150个测试样本，每个样本均包含输入文本、输出文本和唯一标识符。这种结构化的数据设计使得研究者能够有效地进行模型训练和评估，同时为刻板印象研究提供了丰富的语料资源。

使用方法

task317_crows-pairs_classification_stereotype_type数据集的使用方法主要围绕文本生成任务展开。研究者可以通过加载数据集，利用其提供的训练样本进行模型训练，并通过验证和测试样本评估模型性能。数据集的结构化设计使得其易于集成到现有的自然语言处理框架中，为刻板印象分类及相关研究提供了便捷的工具和资源。

背景与挑战

背景概述

task317_crows-pairs_classification_stereotype_type数据集由Allen Institute for AI于2022年发布，旨在通过自然语言处理任务探索和分类文本中的刻板印象类型。该数据集是Super-NaturalInstructions项目的一部分，该项目致力于通过声明性指令在1600多个NLP任务中实现泛化。数据集的核心研究问题在于如何通过文本生成任务识别和分类社会文化中的刻板印象，从而推动公平性和多样性的研究。该数据集在自然语言处理领域具有重要影响力，特别是在社会偏见检测和公平性评估方面，为研究人员提供了丰富的实验数据。

当前挑战

task317_crows-pairs_classification_stereotype_type数据集面临的主要挑战包括两个方面。首先，在领域问题方面，刻板印象的多样性和复杂性使得文本分类任务极具挑战性，尤其是在不同文化和社会背景下，刻板印象的表现形式可能截然不同。其次，在数据构建过程中，由于数据来源于众包，可能存在标注不一致和质量参差不齐的问题，这对模型的训练和评估提出了更高的要求。此外，如何在不引入新偏见的情况下构建和扩展数据集，也是研究人员需要解决的关键问题。

常用场景

经典使用场景

在自然语言处理领域，task317_crows-pairs_classification_stereotype_type数据集被广泛用于研究文本生成任务中的刻板印象分类问题。通过提供包含刻板印象的文本对，该数据集帮助研究者训练和评估模型在识别和分类刻板印象方面的能力。这一场景特别适用于需要高精度文本理解和分类的应用，如社交媒体内容审核和自动化新闻生成。

解决学术问题

该数据集解决了自然语言处理中一个关键问题：如何有效识别和分类文本中的刻板印象。通过提供大量标注数据，研究者可以开发更精确的模型来检测和减少文本中的偏见，从而提升模型的公平性和可靠性。这对于推动公平AI的发展具有重要意义，尤其是在涉及敏感内容的自动处理系统中。

衍生相关工作

基于task317_crows-pairs_classification_stereotype_type数据集，研究者们开发了多种先进的自然语言处理模型，如基于Transformer的刻板印象分类器和多任务学习框架。这些模型不仅在学术研究中取得了显著成果，还被广泛应用于实际系统中，如社交媒体内容审核和新闻自动化生成，进一步推动了公平AI技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集