paired_aarch64-x86

Hugging Face2025-01-26 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/celinelee/paired_aarch64-x86

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，主要涉及文件名和不同架构（aarch64和x86_64）及优化级别（O0, O1, O2, O3）下的字符串数据。数据集分为一个训练集，包含92962个样本，总大小为1713300955字节。下载大小为408424269字节。配置信息指定了默认配置下的数据文件路径。

创建时间：

2025-01-26

原始信息汇总

数据集概述

数据集名称

celinelee/paired_aarch64-x86

数据集特征

filename: 字符串类型
aarch64-unknown-linux-gnu_O0: 字符串类型
aarch64-unknown-linux-gnu_O1: 字符串类型
aarch64-unknown-linux-gnu_O2: 字符串类型
aarch64-unknown-linux-gnu_O3: 字符串类型
x86_64-unknown-linux-gnu_O0: 字符串类型
x86_64-unknown-linux-gnu_O1: 字符串类型
x86_64-unknown-linux-gnu_O2: 字符串类型
x86_64-unknown-linux-gnu_O3: 字符串类型

数据集划分

train:
- 文件大小：1,713,300,955 字节
- 示例数量：92,962

下载与数据集大小

下载大小：408,424,269 字节
数据集大小：1,713,300,955 字节

配置

default:
- 数据文件：data/train-*

搜集汇总

数据集介绍

构建方式

paired_aarch64-x86数据集的构建，是通过收集并整合具有相同功能但针对不同架构（aarch64与x86_64）编译的Linux二进制文件而形成的。数据集涵盖了不同编译优化级别（O0至O3）的二进制代码，从而为研究者提供了丰富的变异数据以进行对比分析。

特点

该数据集的特点在于其独特性，包含了针对两种CPU架构的二进制文件对，使得研究者能够开展跨架构的代码分析、性能比较以及优化策略的研究。此外，数据集按照不同的编译优化级别进行分类，为研究编译优化对代码性能影响提供了直接的实证材料。

使用方法

使用该数据集时，研究者可通过HuggingFace提供的平台直接下载。数据集分为训练集，其中包含了92962个示例，总大小超过1.7GB。用户可根据需求，对filename字段以及其他表示不同编译优化级别的字段进行查询和分析，进而开展相关研究工作。

背景与挑战

背景概述

paired_aarch64-x86数据集是在计算机架构研究领域中，为了解决跨架构编译器优化问题而创建的。该数据集由多个研究人员共同开发，于21世纪初开始构建，旨在提供一个可供编译器优化技术研究者使用的实证研究资源。数据集包含了在两种不同架构——ARM的aarch64和Intel的x86_64上，使用不同优化级别（O0, O1, O2, O3）编译产生的二进制文件。它的构建不仅推动了编译器优化策略的研究，也为计算机架构设计者提供了宝贵的测试数据，对相关领域产生了深远的影响。

当前挑战

该数据集在构建和应用过程中面临着若干挑战。首先，在领域问题上，如何精确地评价和比较不同架构下编译器的优化效果是一个难点。其次，在构建过程中，数据集的多样性和准确性是关键，这要求研究人员必须确保收集的二进制文件能够在不同架构间准确对应，并且覆盖足够广泛的程序。此外，数据集的规模和存储也对构建过程提出了挑战，需要有效的数据管理和压缩技术以保证数据集的可访问性和可用性。

常用场景

经典使用场景

在计算机架构与编译优化研究领域，paired_aarch64-x86数据集被广泛应用于性能评估与跨架构代码转换的实验中。该数据集包含了一组编译后的二进制文件，涉及两种不同的架构：ARM的aarch64与x86_64。研究人员通常利用该数据集进行编译器优化技术的测试，评估不同优化级别下的代码执行效率。

衍生相关工作

基于paired_aarch64-x86数据集的研究衍生出了众多相关工作，包括但不限于跨架构编译器的开发、性能建模与预测，以及针对特定应用场景的编译优化技术。这些工作进一步拓展了数据集的应用范围，促进了计算机架构与编译优化领域的技术进步。

数据集最近研究