AUTALIC

Name: AUTALIC
Creator: 加利福尼亚大学圣迭戈分校, 卡迪夫大学
Published: 2024-10-22 05:21:29
License: 暂无描述

arXiv2024-10-22 更新2024-10-24 收录

下载链接：

http://arxiv.org/abs/2410.16520v1

下载链接

链接失效反馈

官方服务：

资源简介：

AUTALIC数据集是由加利福尼亚大学圣迭戈分校和卡迪夫大学的研究人员创建的，专门用于检测上下文中的反自闭症歧视性语言。该数据集包含2400条与自闭症相关的句子，这些句子从Reddit收集并由经过培训的专家进行标注。数据集的创建过程包括数据收集、标注和验证，旨在解决当前自然语言处理模型在识别反自闭症歧视性语言方面的不足。AUTALIC数据集的应用领域主要集中在神经多样性和歧视性语言研究，旨在开发更加包容和上下文感知的NLP系统。

The AUTALIC dataset was created by researchers from the University of California, San Diego and Cardiff University, specifically for detecting anti-autistic discriminatory language in context. This dataset contains 2,400 autism-related sentences collected from Reddit and annotated by trained experts. The dataset's creation process includes data collection, annotation and validation, aiming to address the current shortcomings of natural language processing (NLP) models in identifying anti-autistic discriminatory language. The AUTALIC dataset is mainly applied in neurodiversity and discriminatory language research, with the goal of developing more inclusive and context-aware NLP systems.

提供机构：

加利福尼亚大学圣迭戈分校, 卡迪夫大学

创建时间：

2024-10-22

搜集汇总

数据集介绍

构建方式

AUTALIC数据集的构建过程始于对Reddit平台上与自闭症相关内容的系统性收集。研究团队通过精心筛选的关键词，从Reddit中提取了2,400条包含自闭症相关内容的句子，并确保每条句子都附有前后文以提供充分的语境。这些数据随后由经过专门培训的专家进行标注，这些专家具备神经多样性领域的专业背景。标注过程严格遵循预定的标准，确保数据的高质量和一致性。

特点

AUTALIC数据集的显著特点在于其专注于反自闭症歧视语言的检测，填补了该领域在自然语言处理研究中的空白。数据集不仅包含了丰富的上下文信息，还通过多重标注确保了标注结果的可靠性。此外，AUTALIC数据集公开了每个标注者的独立标注结果，这对于研究标注任务中的分歧具有重要价值。

使用方法

AUTALIC数据集可用于训练和评估自然语言处理模型，特别是那些旨在识别和分类反自闭症歧视语言的模型。研究者可以通过该数据集进行模型微调，以提高其在特定任务上的表现。此外，数据集的公开标注结果也为研究标注一致性和模型性能提供了宝贵的资源，有助于推动更包容和上下文感知的NLP系统的发展。

背景与挑战

背景概述

AUTALIC数据集由加利福尼亚大学圣地亚哥分校和卡迪夫大学的研究人员创建，旨在解决自然语言处理（NLP）领域中反自闭症歧视语言检测的显著空白。该数据集包含了从Reddit收集的2400个与自闭症相关的句子，并由具有神经多样性背景的专家进行标注。AUTALIC的创建标志着首次针对反自闭症歧视语言的上下文检测的基准数据集，其核心研究问题在于识别和分类这种微妙且依赖上下文的语言表达。该数据集的发布不仅填补了现有NLP工具在捕捉此类语言细微差别方面的不足，还为研究者提供了一个宝贵的资源，以推动对歧视语言、神经多样性以及标注任务中分歧的研究。

当前挑战

AUTALIC数据集面临的挑战主要集中在两个方面：一是解决领域问题的挑战，即如何准确识别和分类反自闭症歧视语言，这种语言具有微妙和上下文依赖的特性，现有NLP工具往往难以捕捉；二是构建过程中遇到的挑战，包括数据收集的偏差问题，如依赖特定社交媒体平台和关键词可能导致的数据选择偏差，以及标注过程中由于语言使用和内涵的变化导致的动态理解问题。此外，数据集的西方视角定义和理解自闭症也可能限制其跨语言和文化的通用性。

常用场景

经典使用场景

AUTALIC数据集的经典使用场景在于检测和分类反自闭症的歧视性语言。通过分析Reddit上收集的2,400个与自闭症相关的句子及其上下文，该数据集为研究人员提供了一个基准，用于评估和改进自然语言处理模型在识别和处理反自闭症歧视性语言方面的能力。这种数据集的使用有助于开发更加包容和敏感的NLP系统，从而更好地反映和尊重自闭症群体的多样性。

衍生相关工作

AUTALIC数据集的发布催生了一系列相关研究工作，特别是在反歧视语言检测和神经多样性研究领域。研究人员利用该数据集进行模型训练和评估，探索了不同类型的机器学习算法在处理这类复杂语言任务中的表现。此外，该数据集还激发了对标注任务中意见分歧的研究，推动了NLP领域在处理多义性和上下文依赖性问题上的方法创新。这些衍生工作不仅扩展了AUTALIC的应用范围，也深化了对反自闭症歧视性语言的理解和应对策略。

数据集最近研究