five

SubPOP

收藏
github2025-02-27 更新2025-02-27 收录
下载链接:
https://github.com/JosephJeesungSuh/subpop
下载链接
链接失效反馈
官方服务:
资源简介:
SubPOP是一个大规模的调查响应数据集,用于减少人类与LLM预测之间的分布差异。

SubPOP is a large-scale survey response dataset designed to mitigate the distributional shift between human responses and LLM predictions.
创建时间:
2025-02-24
原始信息汇总

语言模型微调在预测公众意见分布上的应用

数据集概述

数据集名称

SubPOP

数据集简介

SubPOP是一个大规模调查响应数据集,用于微调语言模型,以预测公众意见分布,减少人类与LLM预测之间的分布差异。

数据集来源

  • SubPOP-Train:来自Pew Research的美国趋势面板波次61-132。
  • SubPOP-Eval:来自NORC的2022年一般社会调查。
  • OpinionQA:来自OpinionQA官方存储库的组级调查响应结果。

数据集结构

  • 数据集包含处理后的调查响应数据,以及用于微调和评估的脚本和代码。
  • 数据集分为训练集、验证集和测试集。

使用说明

  1. 数据下载:根据数据使用条款,用户需从指定的网站下载原始调查响应数据。
  2. 数据准备:包括问题文本精炼和响应分布获取。
  3. 模型微调:基于llama-cookbook框架,使用LoRA模块进行微调。
  4. 模型评估:运行推理并测量响应概率分布。

数据集路径

  • SubPOP-Traindata/subpop-train/
  • SubPOP-Evaldata/subpop-eval/
  • OpinionQA:data/opinionqa/

模型检查点

  • 提供四种基模型的LoRA检查点:Llama-2-7B base、Llama-2-13B base、Mistral-7B-v0.1 base和Llama-3-70B base。

参考文献

  • Suh, Joseph, Erfan Jahanparast, Suhong Moon, Minwoo Kang, and Serina Chang. "Language Model Fine-Tuning on Scaled Survey Data for Predicting Distributions of Public Opinions." arXiv preprint arXiv:2502.16761 (2025). arXiv

数据集详情页面 | 论文阅读

搜集汇总
数据集介绍
main_image_url
构建方式
SubPOP数据集的构建基于大规模调查响应数据,通过对美国趋势面板波次61-132的数据和2022年一般社会调查数据进行分析,获取了22个次级人口群体的响应分布。数据集的构建过程包括精炼问题文本、获取响应分布和生成微调数据集三个步骤。
特点
SubPOP数据集的特点在于,它利用了语言模型在预测公众意见分布方面的潜力,通过微调预训练的语言模型,显著减少了人类与LLM预测之间的分布差距。数据集涵盖了多个次级人口群体,并提供了精细化的处理和格式化数据,以便于模型训练和评估。
使用方法
使用SubPOP数据集首先需要准备数据集,包括从指定网站下载调查响应数据并将其放置在相应目录下。然后,通过执行脚本精炼问题文本、获取响应分布并生成微调数据集。接下来,可以使用llama-cookbook对基础模型进行微调,并使用vLLM进行推理和测量响应分布。
背景与挑战
背景概述
SubPOP数据集是一项关于语言模型微调的研究成果,旨在通过大规模调查数据预测公众意见的分布。该数据集由Joseph Suh等研究人员于2025年创建,主要依托于美国趋势面板和一般社会调查的数据。研究核心问题是探索语言模型在预测公众意见调查响应方面的有效性,对于理解公众意见形成和变化具有显著影响。
当前挑战
在构建SubPOP数据集的过程中,研究人员遇到了以下挑战:1)如何缩小人类与语言模型预测之间的分布差距;2)如何处理和整合大规模调查响应数据;3)如何在保证隐私的前提下,合理使用和分享数据集。在所解决的领域问题方面,SubPOP数据集面临的挑战包括提高预测精度,减少模型偏差,以及确保模型在不同子群体中的泛化能力。
常用场景
经典使用场景
SubPOP数据集广泛应用于预测公众意见分布的语言模型微调领域,其独特之处在于利用大规模调查数据减少人类与语言模型预测之间的分布差距,提升预测准确性。
解决学术问题
该数据集解决了传统调查方法成本高昂、耗时长的问题,为学术研究提供了一个高效、经济的预测工具,有助于快速获取公众意见分布,为政策制定和社会研究提供数据支持。
衍生相关工作
基于SubPOP数据集,衍生出了一系列相关研究工作,包括但不限于对公众意见预测模型的改进、调查数据质量评估方法的研究以及多模态公众意见分析等,推动了社会科学与人工智能领域的交叉融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作