大型纵向社会科学调查项目

Name: 大型纵向社会科学调查项目
Creator: 英国萨里大学
Published: 2025-04-29 20:00:33
License: 暂无描述

arXiv2025-04-29 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.20679v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来源于一个大型纵向社会科学调查项目，包含1946年至2020年间318份问卷中的42,161个问题，涵盖标准、限定和复合三种类型。数据集旨在解决长期研究中语义等价问题的自动检测问题，并评估了多种无监督信息检索方法在数据集上的表现。

This dataset is derived from a large longitudinal social science survey project, comprising 42,161 questions from 318 questionnaires spanning the period from 1946 to 2020. The questions fall into three categories: standard, constrained, and composite. This dataset is developed to address the automatic detection of semantic equivalence issues in long-term research, and the performance of multiple unsupervised information retrieval methods has been evaluated on it.

提供机构：

英国萨里大学

创建时间：

2025-04-29

搜集汇总

数据集介绍

构建方式

该数据集基于1946至2020年间的大规模纵向社会科学调查项目构建，涵盖318份问卷共计42,161个问题。通过整合标准型、限定型和复合型三类问题，采用问题文本与回答选项串联的输入序列构造方法，特别关注代码列表问题的概念与子概念分布特征。数据标注采用包含16个顶层主题和120个细分子主题的层级本体，为概念对齐提供结构化评估框架。

特点

数据集具有显著的时间跨度和概念复杂性，覆盖75年间社会语境变迁导致的术语演变与结构差异。其核心特征体现在：标准型问题通过问题文本承载概念、回答选项蕴含子概念的特殊分布模式；三类问题变体（标准/限定/复合）形成差异化语义表达空间；标注体系同时捕捉主题层级关系和跨时代概念漂移现象，为语义等效性检测提供多维度评估基准。

使用方法

使用该数据集时，建议采用信息检索与语义匹配相结合的混合方法。首先利用BM25等传统模型进行初步筛选，再通过BGE-m3等专业检索模型进行语义重排序。评估时应兼顾定量指标（如F1值）与专家人工标注（如概念匹配分级），特别注意对高词汇重叠但子概念错配案例的分析。输入序列需保持问题与回答选项的完整拼接，以保留概念-子概念的关联特征。

背景与挑战

背景概述

大型纵向社会科学调查项目数据集由英国萨里大学和伦敦大学学院的跨学科团队于2025年创建，旨在解决社会科学研究中长期存在的问卷语义等效性识别难题。该数据集整合了1946至2020年间318份问卷的42,161个问题，涵盖住房、就业等16个核心社会议题，通过构建层次化标签体系实现了跨时代调查数据的标准化映射。作为首个将信息检索技术系统应用于纵向调查协调的研究，该项目显著提升了社会学、经济学等领域长期追踪研究的可比性，为理解社会变迁提供了方法论创新。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需克服社会学术语历时演变（如'dwelling'到'household'的语义漂移）与问卷结构异质性（问题文本与选项共同定义理论构念）带来的概念对齐困难；在构建过程中，需处理长达75年的语言风格变异、响应选项编码不一致等数据质量问题。实验表明，即便最优的IR专用神经模型（BGE-m3）在子概念错配场景下的F1值仅达0.79，暴露出当前方法对高词汇重叠但语义分歧问题的识别局限。

常用场景

经典使用场景

大型纵向社会科学调查项目数据集在社会科学研究中扮演着关键角色，尤其在跨代社会变迁分析中具有不可替代的价值。该数据集通过整合1946至2020年间318份问卷的42,161个问题，为研究者提供了涵盖住房、就业、教育等16个核心主题的长期追踪数据。其最经典的使用场景在于支持跨时期问卷问题的语义对齐研究，例如通过信息检索技术识别不同年代问卷中表述相异但概念相同的问题，如'dwelling'与'household'的历时语义匹配。

实际应用

在实际应用层面，该数据集已成功支撑多项重大社会政策评估。例如在公共卫生领域，通过匹配不同时期居民健康满意度调查问题，揭示了医疗资源分配政策的长期效应；在教育政策研究中，对齐跨越30年的学业压力测评问题，为教育制度改革提供了历时性证据。英国国家统计局等机构已采用该数据集的检索方法，提升人口普查问卷的跨年代可比性，其技术方案更被欧盟跨国社会调查项目采纳为标准化预处理流程。

衍生相关工作

该数据集催生了多个跨学科创新研究：在方法学层面，启发了BGE-m3等融合稀疏与稠密检索的混合模型开发；在应用领域，衍生出基于层次化概念建模的问卷自动编码系统（如ECASS框架）。其构建的标注体系更成为后续研究基准，如SocialSciBERT针对社会科学文本的预训练模型即采用该数据集的标注规范。近期发表于《计算社会科学期刊》的神经词嵌入研究，进一步扩展了该数据集在跨文化调查适配中的应用场景。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集