sustainable-gpu-usage-data

github2026-02-19 更新2026-02-20 收录

下载链接：

https://github.com/eliemichel/sustainable-gpu-usage-data

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含了对SIGGRAPH论文中GPU使用情况的分析数据集。我们从2018-2024年的888篇SIGGRAPH论文中收集了作者报告的GPU型号，并将论文中报告的硬件与消费者硬件可用数据进行了对比分析，展示了图形研究通常是在不反映消费者级市场状态的新高端设备上开发和测试的。

This repository contains an analytical dataset for analyzing GPU usage in SIGGRAPH papers. We collected the GPU models reported by authors from 888 SIGGRAPH papers published between 2018 and 2024, and performed a comparative analysis between the hardware reported in these papers and the availability data of consumer-grade hardware, demonstrating that graphics research is often developed and tested on new high-end devices that do not reflect the current state of the consumer-grade market.

创建时间：

2026-02-19

原始信息汇总

数据集概述

数据集基本信息

数据集名称：Analysis of GPU usage in SIGGRAPH papers
关联研究：SIGGRAPH 2025 Talk "Towards a sustainable use of GPUs in Graphics Research"
数据来源：对2018年至2024年间888篇SIGGRAPH论文的调查，收集了作者报告的GPU型号。
核心发现：通过将论文中报告的硬件与消费者硬件可用数据进行对比分析，表明图形学研究持续在不能反映消费者市场现状的新型高端设备上进行开发和测试。

数据来源与内容

数据集整合了来自四个来源的GPU设备数据：

SIGGRAPH研究论文：2018-2024年的论文。
GPU设备名称：来自 TechPowerUp。
性能数据：来自 Blender Open data benchmark。
消费者级GPU使用情况：来自 Steam Hardware Survey。

数据收集与处理流程

1. 论文收集

通过ACM数字图书馆或公开渠道批量获取论文PDF。
提供了辅助脚本 download_papers.py 从公开资源（如Ke-Sen Huang的网站、Semantic Scholar）抓取论文。
论文存储在 data/raw/papers 目录，并生成元数据文件 metadata.json。

2. 设备名称收集

从TechPowerUp抓取GPU设备数据库，结果已提供在 data/raw/devices 目录。

3. 自动GPU名称提取

运行脚本 extract_device_names_from_papers.py 解析论文文本，提取所有GPU/CPU设备名称的出现。
使用 acora 进行令牌匹配，rapidfuzz 进行模糊识别，fuzzysearch 估计匹配位置。

4. 手动GPU名称校正

运行 validate_search_results_manually.py 对自动匹配结果进行人工标注（正确/错误/缺失）。
运行 correct_device_names_manually.py 对标注为错误的匹配进行手动校正。
运行 aggregate_similar_device_names.py 手动构建聚合表，以统一整个数据集中GPU名称的微小差异（例如，将 NVIDIA GeForce RTX 2080 Ti 12 GB 和 NVIDIA GeForce RTX 2080 Ti 视为等效）。

5. Steam使用数据收集

使用Scrapy通过Wayback Machine抓取Steam GPU统计数据。

6. Blender基准测试收集

从Blender Open data benchmark下载最新可用数据，存储在 raw/benchmark/blender-benchmark-2025.csv。

7. 数据源间关联构建

使用脚本 match_papers_to_users.py 手动匹配不同数据源（论文、基准测试、用户）中可能名称不一致的GPU设备，以建立数据集之间的对应关系。

数据集文件与结构

所有收集的数据及详细描述均位于 data 目录下。主要包含以下处理阶段的数据：

data/raw/: 原始数据（论文PDF、设备列表等）。
data/processed/automatic/: 自动处理结果（如 device-search-results.json）。
data/processed/manual/: 人工标注与校正结果（如 device-search-results_annotated.json, device-search-results_manual_labels.json）。
data/aggregated/: 聚合与映射表（如 paper_gpus_name_aggregation.csv, papers_gpu_to_benchmark_gpus.csv）。

分析脚本与使用

分析脚本位于 analysis 目录。
例如，运行 python analysis/papers_with_users_bar_chart.py 可生成主要结果图表。
运行 analysis/print_stats.py 可显示用于摘要和演示的统计数据，例如检测到GPU的论文比例、每篇论文的GPU数量分布等。

技术依赖

脚本依赖项列于 requirements.txt 文件中。
使用 Python 3.11 进行测试。
网络抓取脚本使用了 requests-cache 模块进行缓存，以提高可重复性。

搜集汇总

数据集介绍

构建方式

在计算机图形学研究领域，硬件设备的演进与学术成果的产出密切相关。sustainable-gpu-usage-data数据集的构建过程体现了严谨的学术数据采集与整合方法。研究团队系统性地收集了2018年至2024年间SIGGRAPH会议上发表的888篇学术论文，通过自动化文本提取技术从PDF文档中识别作者报告的GPU型号。为确保数据准确性，研究采用了多源数据验证机制：从TechPowerUp获取GPU设备规格数据库，通过Blender开源基准测试平台收集性能数据，并利用Steam硬件调查统计消费者级GPU使用情况。数据整合阶段通过模糊字符串匹配算法建立不同来源间的设备对应关系，并辅以人工校验流程修正自动识别中的误差，最终形成跨平台、多维度的高质量硬件使用数据集。

特点

该数据集在图形学硬件研究领域展现出独特的跨源整合特性。其核心价值在于首次建立了学术研究设备使用与消费市场现状之间的量化关联，通过标准化命名规范解决了多源数据中设备名称不一致的挑战。数据集覆盖了七年间的学术发表周期，包含精细的设备性能参数和市场份额统计，形成了时间序列与横向对比的双重分析维度。特别值得注意的是，数据集不仅记录了高端研究设备的采用情况，还同步收录了同期消费级硬件的普及数据，这种对照结构为评估研究生态的可持续性提供了实证基础。数据集的层次化存储架构确保了原始采集数据与处理结果的完整可追溯性。

使用方法

该数据集为图形学硬件生态研究提供了模块化的分析框架。研究人员可通过Python脚本直接访问结构化的CSV和JSON数据文件，利用预置的分析脚本快速复现论文中的核心图表。数据集采用分层目录组织，原始采集数据、处理中间结果和聚合分析结果分别存储，支持从数据清洗到可视化呈现的全流程追溯。用户可根据研究需求选择性调用特定模块：例如通过设备名称匹配脚本建立自定义的硬件对应关系，或利用Steam数据采集器扩展时间序列范围。分析脚本集成了统计计算与可视化功能，支持生成设备使用分布图、性能趋势曲线等多类学术图表，所有数据处理步骤均提供参数化接口以适应不同的研究场景。

背景与挑战

背景概述

在计算机图形学领域，高性能计算硬件的快速发展推动了研究方法的革新，但同时也引发了关于研究可复现性与资源可持续性的深刻思考。Sustainable-GPU-Usage-Data数据集由研究人员于2025年SIGGRAPH会议上首次提出，旨在系统分析2018年至2024年间888篇SIGGRAPH论文中GPU硬件的使用模式。该数据集通过整合学术文献、硬件规格数据库、性能基准测试以及消费者级硬件调查等多源信息，揭示了图形学研究普遍依赖高端GPU设备的现象，与主流消费市场硬件分布存在显著脱节。这一发现促使学术界重新审视研究方法的生态足迹，为构建更具包容性和可持续性的计算实践提供了实证基础。

当前挑战

该数据集的核心挑战在于解决图形学研究与消费级硬件生态之间的评估鸿沟，即如何量化并改善学术研究中硬件使用的前沿性与实际应用场景的匹配度。在构建过程中，研究人员面临多源数据融合的复杂性：首先，从非结构化的PDF论文中准确提取GPU型号名称需克服文本解析的模糊性，例如设备名称的变体表述或拼写差异；其次，不同数据源（如TechPowerUp硬件库、Steam硬件调查、Blender基准测试）之间的GPU命名体系存在不一致性，需通过人工标注与模糊匹配建立跨数据集的关键词映射。此外，大规模学术文献的批量获取与处理亦涉及版权访问与数据清洗的技术障碍。

常用场景

经典使用场景

在计算机图形学领域，可持续GPU使用数据集为研究社区提供了量化分析硬件依赖性的关键工具。该数据集通过整合SIGGRAPH论文中的GPU型号信息、消费者硬件市场数据以及性能基准测试结果，揭示了图形学研究与消费级硬件之间的脱节现象。研究人员利用这一数据集，能够系统评估论文中GPU设备的分布趋势，从而探讨硬件选择对研究可复现性与可及性的影响。

衍生相关工作

围绕该数据集，已衍生出多项关注研究可持续性与公平性的经典工作。例如，有研究进一步分析了不同地区硬件可及性对学术产出的影响，另一些工作则开发了基于硬件性能的论文评估指标。这些衍生研究共同构建了一个更全面的分析框架，推动图形学社区从单纯追求性能转向兼顾效率、可及性与环境影响的综合评估体系。

数据集最近研究