survey-language-technologies

Hugging Face2025-06-02 更新2025-06-03 收录

下载链接：

https://huggingface.co/datasets/MilaNLProc/survey-language-technologies

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为“社会经济地位如何影响语言技术交互的AI差距”，包含了来自不同社会经济背景的1000个个体的回应。这些数据用于研究社会经济地位对与生成式AI和大型语言模型交互的影响。参与者提供了人口统计和社会经济数据，以及他们之前向LLM提交的最多10个真实提示。

创建时间：

2025-05-23

原始信息汇总

数据集概述

基本信息

名称: The AI Gap: How Socioeconomic Status Affects Language Technology Interactions
许可证: MIT
语言: 英语 (en)
数据规模: 1K<n<10K

数据集摘要

样本量: 1,000名来自不同社会经济背景的个体
数据内容:
- 参与者提供的 demographic 和 socioeconomic 数据
- 参与者提交给大型语言模型（如ChatGPT）的真实 prompts，总计 6,482 条 unique prompts
研究目的: 研究社会经济地位（SES）如何影响与语言技术（特别是生成式AI和大型语言模型）的互动

数据集结构

文件格式: CSV (survey_language_technologies.csv)
字段说明:
- 人口统计信息: gender, age, nationality, ethnicity, marital, language, religion
- 教育背景: education, mum_education, dad_education
- 社会经济状况: ses, home, employment, occupation, mother_occupation, father_occupation
- 兴趣爱好与技术使用: hobbies, tech, know_nlp, use_nlp, would_nlp
- LLM使用情况: frequency_llm, llm_use, usecases, contexts
- 用户提交的prompts: prompt1–prompt10
- 其他: comments

引用信息

bibtex @inproceedings{bassignana-2025-survey, title = "The {AI} {G}ap: {H}ow {S}ocioeconomic {S}tatus {A}ffects {L}anguage {T}echnology {I}nteractions", author = "Bassignana, Elisa and Cercas Curry, Amanda and Hovy, Dirk", booktitle = "Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics", year = "2025", url = "https://arxiv.org/abs/2505.12158" }

数据集维护者

Elisa Bassignana (IT University of Copenhagen)
Amanda Cercas Curry (CENTAI Institute)
Dirk Hovy (Bocconi University)

相关链接

数据集文件: survey_language_technologies.csv
调查界面: https://nlp-use-survey.streamlit.app/
论文预印本: https://arxiv.org/abs/2505.12158

搜集汇总

数据集介绍

构建方式

该数据集通过精心设计的调查问卷，采集了来自不同社会经济背景的1000名个体的详细数据，旨在探究社会经济地位对语言技术交互的影响。数据收集过程涵盖了广泛的个人信息，包括人口统计特征、教育背景、职业状况以及日常技术使用习惯。特别值得注意的是，每位参与者还提供了多达10条曾向大型语言模型提交的真实提示词，共计6482条独特数据，为研究提供了丰富的实证素材。

特点

数据集以多维度的社会人口学变量为核心，系统性地记录了参与者的性别、年龄、民族、教育程度等关键特征，同时创新性地整合了实际使用语言技术的具体案例。数据结构的显著特色在于采用分号分隔的多选字段设计，既保留了原始信息的完整性，又确保了数据处理的灵活性。尤为珍贵的是，该数据集包含大量用户生成内容，如真实提示词和使用场景描述，为理解不同群体与AI的互动模式提供了独特视角。

使用方法

研究人员可通过分析CSV格式的数据文件，探索社会经济因素与语言技术使用行为之间的关联模式。数据集支持多种分析维度：从基础的人口统计分布描述，到复杂的多变量回归分析；从提示词语义的文本挖掘，到使用场景的主题建模。特别建议结合自然语言处理技术，对用户提交的提示词进行深入分析，以揭示不同社会群体在使用语言技术时的认知差异和行为特征。为保障研究可复现性，建议严格遵循数据集提供的引用规范。

背景与挑战

背景概述

随着生成式人工智能和大型语言模型（LLM）的快速发展，理解不同社会经济背景用户与语言技术的互动差异成为研究热点。由Elisa Bassignana、Amanda Cercas Curry和Dirk Hovy等学者于2025年创建的survey-language-technologies数据集，旨在探究社会经济地位（SES）对语言技术使用模式的影响。该数据集收录了来自多元社会经济背景的1000名受访者的真实交互数据，包含6482条用户提交至ChatGPT等LLM的提示词。通过详尽的用户画像和行为数据，该研究为计算语言学领域提供了首个系统性分析数字鸿沟与AI技术采纳关系的实证基础，对促进技术普惠性发展具有重要价值。

当前挑战

该数据集面临的核心挑战体现在研究问题和数据构建两个维度。在研究层面，如何准确定义和量化社会经济地位对技术采纳的复杂影响机制存在难度，需解决多变量交叉效应分析、文化背景干扰排除等方法论问题。在数据构建方面，挑战主要来自样本代表性的平衡——需兼顾不同教育水平、职业类型和数字素养群体的覆盖；同时，用户生成提示词的质量控制与语义标注需要克服自然语言歧义性带来的分析困难。此外，隐私保护与数据匿名化处理也面临用户敏感信息脱敏的技术挑战。

常用场景

经典使用场景

在语言技术与社会经济交叉领域的研究中，survey-language-technologies数据集为探索不同社会经济背景用户与生成式AI交互模式提供了宝贵资源。该数据集通过收集1000名来自多元背景个体的真实提示词及人口统计信息，使研究者能够系统分析社会经济地位如何影响用户对大型语言模型的使用频率、偏好和应用场景。这种基于真实用户行为的数据采集方式，为理解技术采纳差异提供了微观层面的实证基础。

解决学术问题

该数据集有效解决了数字鸿沟研究中缺乏细粒度行为证据的学术困境。通过包含教育程度、职业背景、设备使用等多维SES指标，配合真实交互记录，使研究者能够建立社会经济因素与AI使用模式的因果关联。特别在识别技术获取障碍、使用技能差异等关键问题上，该数据集为计算社会科学提供了量化分析框架，推动了技术公平性研究的范式转型。

衍生相关工作

基于该数据集已衍生出多个具有影响力的研究方向。在技术公平性领域，研究者开发了SES感知的提示词优化框架；教育科技领域产生了数字技能差距量化评估工具；人机交互学界则据此提出了包容性设计指南。这些工作共同推动了AI伦理研究从理论探讨向实证分析的转变，形成了一系列跨学科研究成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集