five

hetus-time-use

收藏
Hugging Face2026-04-07 更新2026-04-08 收录
下载链接:
https://huggingface.co/datasets/Bluefir/hetus-time-use
下载链接
链接失效反馈
官方服务:
资源简介:
HETUS Harmonized Time Use数据集是从Eurostat HETUS TSV文件转换而来的标准化表格数据,包含扁平化的SDMX ESMS元数据。数据集旨在通过保留原始TSV标记和提供标准化分析字段,支持跨国家、年份、人口统计层和活动代码的时间使用比较分析。数据集包含三个主要部分:'observations'(长格式观测数据)、'files'(源文件转换和验证报告)和'metadata'(扁平化的SDMX ESMS元数据属性)。转换过程严格保持数据完整性,确保原始数据的无损映射。数据集适用于需要原始数据来源的可重复ETL流程和时间使用分析研究,但不适用于个体级推断。
创建时间:
2026-04-02
原始信息汇总

数据集概述:HETUS Harmonized Time Use (Eurostat TSV + ESMS metadata)

基本信息

  • 数据集名称:HETUS Harmonized Time Use (Eurostat TSV + ESMS metadata)
  • 许可证:CC BY 4.0
  • 任务类别:表格分类、文本分类
  • 语言:英语
  • 标签:社会学、时间利用、欧洲、欧盟
  • 数据规模:1M < n < 10M

数据来源与内容

  • 原始来源:Eurostat HETUS 数据库导出文件(TSV 格式 + SDMX XML 元数据)
  • 包含的波次2000_20102020
  • 核心内容:从 Eurostat HETUS TSV 文件转换而来的规范化表格观测数据,以及扁平化的 SDMX ESMS 元数据。

数据结构与配置

数据集包含三个配置(config),均仅包含训练集(train split)。

1. 配置:files

  • 描述:每个源文件的转换和验证报告。
  • 特征wavedataset_idsource_filemetadata_filerows_widerows_longrows_expected_longlossless_validateddimensionstime_periods_rawtime_periods
  • 数据量:39 个样本,8,186 字节。
  • 下载大小:7,294 字节。
  • 数据集大小:8,186 字节。

2. 配置:metadata

  • 描述:扁平化的 SDMX ESMS 元数据属性。
  • 特征wavemetadata_fileprepared_atmetadata_set_idattribute_idattribute_pathvalue_htmlvalue_text
  • 数据量:150 个样本,94,561 字节。
  • 下载大小:34,933 字节。
  • 数据集大小:94,561 字节。

3. 配置:observations

  • 描述:长格式的观测数据。
  • 特征
    • 核心溯源字段dataset_idwavesource_filemetadata_filesource_row_indexsource_key_rawdimension_order_rawdimension_ordertime_period_raw
    • 规范化字段time_periodtime_period_yearobservation_cell_rawobservation_rawobservationobservation_valueduration_minutesstatus_flagis_missing
    • 维度字段acl00acl18agedaysweekfreqgeohhcomphhstatusisced11isced97monthsexstartimetra_modeunitwstatus
  • 数据量:1,680,915 个样本,636,505,250 字节。
  • 下载大小:25,062,037 字节。
  • 数据集大小:636,505,250 字节。

转换方法与数据完整性

  • 转换工具db-hf-normalization.py
  • 关键步骤
    1. 将 TSV 文件读取为原始文本。
    2. 展开第一列中的打包维度键。
    3. 将年份/时间列转换为长格式。
    4. 保留原始源标记以供审计。
  • 完整性保证
    • 强制执行精确的行基数:rows_long == rows_wide * number_of_time_period_columns
    • 在单元格级别保留原始源元组:(source_row_index, source_key_raw, time_period_raw, observation_cell_raw)
    • 若检测到不匹配,该文件的转换将失败。

已知注意事项

  • 第一个 TSV 列存储用逗号分隔的打包维度。转换器同时保留原始打包键和扩展后的规范化维度。
  • 分析列中的值周围的空格可能会被规范化,但原始字段保持不变。

预期用途

  • 跨国家、年份、人口统计层和活动代码的比较性时间利用分析。
  • 需要原始源数据谱系的可复现 ETL 流程。

非预期用途

  • 任何个体层面的推断(本数据集为汇总表格统计)。

引用要求

使用时请引用 Eurostat HETUS,并包含此转换数据集的仓库/版本信息。

搜集汇总
数据集介绍
main_image_url
构建方式
在时间利用研究领域,HETUS时间利用数据集通过一套严谨的转换流程构建而成。其原始数据源自欧洲统计局的HETUS数据库,以TSV格式及SDMX XML元数据形式提供。转换过程首先将TSV文件作为原始文本读取,避免任何自动类型转换导致的信息损失。随后,程序对首列中压缩的维度键值进行解析与扩展,并将宽格式的时间列转换为便于分析的长格式。为确保数据的可追溯性与完整性,转换过程严格保留了原始数据单元,包括源键值、时间周期及观测值的原始标记,并在此基础上生成了标准化的分析字段,如统一的时间周期、观测数值、持续时长及状态标志。整个流程通过严格的单元格级映射验证,确保了从源文件到最终数据集的无损转换。
使用方法
该数据集主要服务于社会学与经济学领域的比较分析与可复现研究。使用者可通过加载`observations`配置直接获取长格式的观测数据,用于分析不同国家、时期、人口统计特征下的时间分配模式与活动参与情况。配套的`files`配置提供了每个源文件的转换验证摘要,便于评估数据质量与转换完整性;`metadata`配置则提供了结构化的元数据信息,辅助理解数据背景与定义。在进行跨国或历时比较时,研究者可依据`geo`、`time_period_year`、`sex`、`age`等维度字段进行数据筛选与聚合。需注意,该数据集为汇总的表格统计数据,不适用于任何个体层面的推断分析。
背景与挑战
背景概述
时间利用研究作为社会学与经济学交叉领域的重要分支,旨在量化分析个体日常活动的时间分配模式,为公共政策制定与社会福利评估提供实证依据。HETUS(Harmonised European Time Use Surveys)数据集由欧盟统计局(Eurostat)主导构建,自2000年起协调多国时间利用调查数据,实现跨国跨时期的标准化整合。该数据集聚焦于揭示欧洲居民在劳动、休闲、家务等维度的行为差异,核心研究问题在于探究社会人口学因素如何影响时间配置结构,从而为劳动力市场分析、性别平等研究及可持续发展政策提供关键数据支撑。其多波次设计覆盖2000年至2020年的动态变迁,已成为欧洲社会指标体系中不可或缺的基准资源。
当前挑战
在领域问题层面,时间利用数据分析面临多维复杂性挑战:活动编码体系(如ACL00与ACL18分类)的历时性差异导致跨时期比较需谨慎对齐;稀疏高维统计表格中隐含的层次化维度(如地理区域、年龄组、职业状态)要求建模方法具备结构化特征交互能力。数据构建过程中,原始TSV文件采用紧凑型键值存储格式,需通过无损解析算法将逗号分隔的维度键展开为规范化长表,同时维持原始观测单元与衍生指标的严格双向映射。跨国数据协调需克服调查方法异质性、缺失值处理策略不一致及元数据语义漂移等问题,任何标准化转换均需通过行级基数校验与单元格元组完整性验证,以确保统计可比性不因技术处理而失真。
常用场景
经典使用场景
在社会科学与经济学领域,时间利用研究是理解人类行为模式与社会结构变迁的关键窗口。HETUS时间利用数据集作为欧洲多国标准化时间利用调查的汇总,其经典使用场景在于跨国家、跨年份的宏观比较分析。研究者通过该数据集能够系统追踪不同地理区域、年龄群体、性别及教育背景的个体在日常活动上的时间分配差异,例如工作、休闲、家务等活动的时长分布。这种分析不仅揭示了社会时间结构的演变轨迹,还为检验劳动力市场参与、性别平等及生活满意度等理论假设提供了实证基础。
解决学术问题
该数据集有效解决了时间利用研究中长期存在的标准化与可比性难题。通过统一的活动分类体系与调查方法,它使得跨国、跨时期的比较成为可能,从而助力学者探究全球化背景下时间利用模式的趋同与分化现象。在学术意义上,HETUS为验证时间贫困理论、评估公共政策对时间分配的影响以及理解数字化时代时间碎片化趋势提供了关键数据支撑。其影响深远,推动了时间社会学、劳动经济学与公共政策评估等学科的实证研究范式革新。
实际应用
在实际应用层面,HETUS数据集为政府机构与国际组织制定社会政策提供了重要参考。例如,欧盟成员国可依据数据集揭示的时间利用模式差异,优化家庭友好型政策设计,如弹性工作制或育儿支持措施。城市规划者亦可借鉴通勤时间与休闲活动数据,改善公共交通与服务设施布局。此外,企业利用这些洞察可调整产品与服务策略,以适应不同人群的时间需求,从而提升市场竞争力与社会福祉。
数据集最近研究
最新研究方向
在时间利用研究领域,HETUS数据集作为欧洲多国时间分配统计的标准化资源,正推动跨文化行为模式的深度解析。前沿研究聚焦于利用机器学习技术,从海量结构化观测数据中挖掘社会经济变迁与日常活动模式的关联,例如远程工作普及对性别间家务劳动分工的影响。结合欧洲人口老龄化与可持续发展议程,学者们借助该数据集探讨时间利用在福祉衡量与碳足迹评估中的角色,为公共政策制定提供实证基础。这些探索不仅深化了对人类行为宏观规律的理解,也促进了时间经济学与社会生态学的交叉融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作