grail-wage
收藏Hugging Face2025-10-22 更新2025-10-22 收录
下载链接:
https://huggingface.co/datasets/od2961/grail-wage
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了用户与视频交互的相关信息,包括会话细节、视频元数据以及用户调查的响应。数据集还包括人口统计信息和用户偏好。数据集的详细描述包括会话ID、步骤索引、显示步骤、当前视频ID、视频标题、频道、开始时间、结束时间、可见百分比、会话是否结束、轨迹JSON、推荐项JSON、选项数量、参与者ID、参与者研究、问题、URLID、主题ID、选中的调查行、调查行的多个子项等。
创建时间:
2025-10-18
原始信息汇总
grail-wage 数据集概述
数据集基本信息
- 数据集地址:https://huggingface.co/datasets/od2961/grail-wage
- 数据类型:结构化数据
数据结构特征
核心会话特征
session_id:会话标识符(字符串)step_index:步骤索引(整数)display_step:显示步骤(整数)session_finished:会话完成状态(布尔值)participant_id:参与者标识符(字符串)participant_study:参与研究类型(字符串)
视频交互特征
current_video_id:当前视频ID(字符串)current_video_raw_id:当前视频原始ID(字符串)current_video_title:当前视频标题(字符串)current_video_channel:当前视频频道(字符串)current_video_channel_id:当前视频频道ID(字符串)start_time_ms:开始时间(毫秒,整数)end_time_ms:结束时间(毫秒,浮点数)percent_visible:可见百分比(浮点数)
推荐内容特征
slate_items_json:推荐项目列表,包含:- 频道信息(ID、标题)
- 视频统计(评论数、不喜欢数、时长、收藏数、点赞数、观看数)
- 视频标识(ID、标题)
n_options:选项数量(整数)trajectory_json:轨迹数据(字符串)
调查问卷特征
selected_survey_row:结构化调查数据,包含:- 人口统计信息(年龄、性别、教育、收入等)
- 政治倾向和投票行为
- 媒体使用习惯
- 政策态度(枪支管制、最低工资等)
- 情感极化测量
- YouTube使用频率
技术特征
issue:议题标识(字符串)urlid:URL标识(字符串)topic_id:主题标识(字符串)
数据类型分布
- 字符串类型:标识符、文本数据、分类变量
- 数值类型:时间戳、计数、百分比
- 布尔类型:状态标志
- 结构化类型:嵌套对象和列表
- 空值类型:部分字段允许空值
应用领域
- 用户行为分析
- 推荐系统研究
- 政治态度测量
- 媒体消费模式研究
- 政策偏好调查
搜集汇总
数据集介绍

构建方式
在政治传播研究领域,grail-wage数据集通过多波次纵向调查设计构建而成。研究团队采用结构化问卷与行为轨迹记录相结合的方式,采集了参与者在YouTube平台上的视频浏览行为数据,同时整合了人口统计学特征、政治态度测量和政策立场等多维度变量。数据收集过程严格遵循社会科学研究伦理规范,通过唯一会话标识符确保参与者行为序列的完整性与可追溯性。
特点
该数据集最显著的特征在于其多层次数据结构设计,既包含视频交互的微观行为记录,又融合了宏观调查问卷数据。特征工程方面涵盖了从基础的人口学变量到复杂的政治态度量表,特别是对最低工资政策立场、情感极化指标和媒体信任度等核心构念进行了多时点测量。数据结构采用嵌套式设计,能够支持从个体行为模式到群体态度变迁的跨层级分析。
使用方法
研究人员可通过会话标识符与时间戳字段重构完整的用户行为序列,结合轨迹数据与调查变量进行因果推断分析。数据集支持机器学习方法在政治传播研究中的应用,包括推荐系统效果评估、态度预测建模等。使用前需注意变量命名规范与数据类型转换,建议采用面板数据分析方法处理多波次测量数据,以揭示态度形成的动态过程。
背景与挑战
背景概述
在数字媒体与政治传播研究领域,grail-wage数据集由斯坦福大学等机构于2020年代初期构建,旨在探索视频平台内容对公众政策认知的影响。该数据集聚焦于最低工资政策议题,通过记录用户观看视频时的交互行为与多轮调查数据,揭示媒体暴露如何塑造个体态度变化。其核心研究问题涉及信息茧房效应与政治极化机制,为计算社会科学提供了实证基础,推动了算法推荐系统与公共政策研究的交叉融合。
当前挑战
该数据集需解决政策态度量化中的动态测量难题,包括用户短期情绪波动与长期立场稳定性的区分。构建过程中面临多源异构数据整合挑战,如视频元数据与调查响应的时序对齐问题,以及跨周期追踪样本的高流失率。此外,隐私保护要求限制了原始行为数据的细粒度开放,而政治敏感议题可能导致参与者自我报告偏差,影响因果推断的可靠性。
常用场景
经典使用场景
在政治传播学领域,grail-wage数据集通过记录用户在YouTube平台上的视频浏览轨迹与调查问卷数据,为研究媒体接触对公共政策态度的影响提供了丰富素材。该数据集典型应用于分析用户观看不同立场视频后对最低工资政策支持度的变化,揭示信息接触如何塑造个体政治偏好。
解决学术问题
该数据集有效解决了政治传播研究中关于选择性接触理论与态度极化机制的实证难题。通过追踪用户从视频选择到政策立场形成的完整行为链,为理解媒体碎片化环境下的意见演化提供了微观证据,填补了传统横截面调查在因果推断上的方法论空白。
衍生相关工作
基于该数据集衍生的经典研究包括《数字媒体与政策偏好的形成》等系列论文,这些工作构建了媒体接触与政策态度的计算模型。后续研究进一步拓展了数据采集维度,开发出融合神经网络的动态态度预测框架,推动计算社会科学在政治传播领域的方法创新。
以上内容由遇见数据集搜集并总结生成



