five

float-data

收藏
github2025-11-25 更新2025-11-26 收录
下载链接:
https://github.com/fastfloat/float-data
下载链接
链接失效反馈
官方服务:
资源简介:
该存储库提供了一系列多样化的真实世界和合成浮点数据集,专为基准测试数值解析和字符串转换算法而设计。所有数据集以纯文本格式存储,每行一个数值,便于检查且在不同系统间可重现。数据集涵盖地理空间坐标、科学模拟、天文目录、金融时间序列、机器学习模型权重以及IEEE-754边缘案例等多种类型,旨在提供具有代表性、多样性和挑战性的基准语料库。

This repository provides a diverse set of real-world and synthetic floating-point datasets, specifically designed for benchmarking numerical parsing and string conversion algorithms. All datasets are stored in plain text format, with one numerical value per line, which facilitates inspection and ensures reproducibility across different systems. The datasets cover various types including geospatial coordinates, scientific simulations, astronomical catalogs, financial time series, machine learning model weights, and IEEE-754 edge cases, aiming to offer a representative, diverse and challenging benchmark corpus.
创建时间:
2025-11-21
原始信息汇总

数据集概述

数据集简介

  • 名称:float-data
  • 类型:浮点数基准测试数据集
  • 内容:包含真实世界和合成的浮点数数据集
  • 格式:纯文本文件,每行一个数值
  • 用途:数值解析和字符串转换算法的基准测试

数据集详细说明

🌎 canada.txt — 地理空间坐标 (FP64)

  • 数据来源:GeoJSON地理特征数据集
  • 内容:纬度、经度、高程及相关属性
  • 应用场景:GIS管道、导航系统、开放数据API

🐟 marine_ik.txt — 逆向运动学 (FP32)

  • 数据来源:海洋机器人逆向运动学示例
  • 数值范围:-1到4.4之间的小实数
  • 应用场景:控制系统、科学计算工作负载

🧱 mesh.txt — 3D网格几何 (FP64)

  • 数据来源:三角化3D表面的顶点坐标
  • 数值范围:-1到3之间的小数值
  • 应用场景:CAD、图形引擎、科学可视化

🪙 bitcoin.txt — 历史市场数据 (FP64)

  • 数据内容:比特币每日收盘价(美元)
  • 时间范围:2020-01-01至2022-07-31
  • 应用场景:金融API、交易系统、实时仪表板

🎲 numbers.txt — 均匀随机数 [0,1] (FP64)

  • 类型:合成基准数据集
  • 特点:用于比较,不代表真实世界模式

🤖 mobilenetv3_large.txt — 深度学习模型权重 (FP32)

  • 数据来源:MobileNetV3-Large ImageNet模型序列化权重
  • 内容:数百万个FP32值(小值和中大值)
  • 应用场景:神经网络、梯度更新、机器学习管道

✨ gaia.txt — 天体测量和测光数据 (FP64)

  • 数据来源:ESA Gaia DR3
  • 包含内容:
    • 赤经/赤纬
    • 视差、自行
    • 测光通量
    • 银河系和黄道坐标
  • 特点:大动态范围的真实科学数据集
  • 应用场景:天文学、大科学档案

🌤️ noaa_global_hourly_2023.txt — 气象站测量数据 (FP32)

  • 数据来源:NOAA NCEI "Global Hourly"数据集
  • 内容:温度、露点、能见度、气压
  • 特点:噪声、不规则、API式常见真实世界数据格式

🌍 noaa_gfs_1p00.txt — 全球预报系统模型输出 (FP32)

  • 数据来源:NOAA GFS模型GRIB2文件
  • 内容:位势高度、温度、湿度、气压、风分量
  • 特点:具有有意义数值变化和缩放的真实科学FP32数据

🔥 hellfloat64.txt — 合成IEEE-754压力测试 (FP64)

  • 类型:纯合成数据集
  • 设计目的:压力测试特殊值
  • 包含内容:
    • 次正规数
    • 全范围二的幂
    • ±308范围内的十的幂
    • 舍入边界附近的值
    • 极端量级
    • 结构化边缘情况
    • 对数分布的极值
  • 用途:最坏情况测试工具

数据集特征

  • 存储格式:纯文本
  • 数值精度:包含FP32和FP64两种精度
  • 数据多样性:涵盖地理、金融、科学、机器学习等多个领域
  • 真实性:大部分为真实世界数据,两个为合成数据集

引用信息

bibtex @misc{float-data, title = {float-data: A collection of floating-point numbers}, author = {Jaël Champagne Gareau and Daniel Lemire}, year = {2025}, howpublished = {https://github.com/fastfloat/float-data} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合真实世界与合成数据构建而成,覆盖地理空间坐标、科学模拟、金融时间序列及深度学习模型权重等多个领域。真实数据来源于权威机构如欧洲空间局盖亚任务、美国国家海洋和大气管理局的全球观测系统,以及公开的金融和地理信息数据库;合成数据则专门设计用于测试IEEE-754浮点数标准的边界情况,确保数据集的多样性和代表性。所有数值均以纯文本格式存储,每行一个浮点值,便于跨系统复现和直接检查。
特点
float-data数据集以其广泛的动态范围和实际应用背景著称,包含从微小物理量到天文尺度的大数值,覆盖正负零、次正规数及极端值等IEEE-754特殊情形。数据源自真实场景如导航系统、科学计算和机器学习流水线,兼具噪声与规则性,有效模拟了工业与科研中常见的数值处理挑战。其结构简洁,支持快速加载和基准测试,为算法评估提供了高度可信的参考标准。
使用方法
用户可通过GitHub仓库提供的脚本自动化再生部分数据集,利用uv工具管理Python依赖环境,执行相应shell命令即可生成或更新特定文件。数据集文件以纯文本形式存储于number_files目录,可直接使用命令行工具如head或wc进行预览和统计。在研究中引用该数据集时,需按照提供的BibTeX格式标注来源,确保学术使用的规范性和可追溯性。
背景与挑战
背景概述
浮点数据处理作为科学计算与工程应用的核心环节,其精度与效率直接影响数值模拟、机器学习及地理信息系统等领域的可靠性。float-data数据集由研究人员Jaël Champagne Gareau与Daniel Lemire于2025年构建,旨在系统化整合真实场景与合成浮点数据,覆盖地球科学、金融交易、天体物理及人工智能等多学科领域。该数据集通过标准化格式存储经纬度坐标、神经网络权重、天文观测数据等异构数值,为解析算法评估提供了跨领域基准,显著推动了数值计算方法的可复现性与泛化能力研究。
当前挑战
该数据集致力于应对浮点数字符串转换算法的鲁棒性测试挑战,需兼容从亚正规数到极端数量级的IEEE-754特殊值解析。构建过程中面临多源数据整合复杂性:地理空间坐标需保持投影变换后的精度完整性,天文数据动态范围跨越数十个数量级,而合成数据生成需精确模拟舍入边界条件。此外,真实场景数据如气象观测存在采样噪声与缺失值,深度学习模型权重则需平衡数值分布的代表性与存储效率,这些因素共同构成了数据集构建与应用的多元挑战。
常用场景
经典使用场景
在数值计算与数据解析领域,float-data数据集通过整合地理空间坐标、金融时间序列及科学模拟数据,为浮点数解析算法提供了标准化测试基准。例如,其包含的canada.txt地理坐标数据能够模拟导航系统对经纬度信息的处理流程,而bitcoin.txt则重现了金融API中价格波动的典型场景,这些多样化场景共同构建了评估字符串转换算法性能的生态体系。
衍生相关工作
基于该数据集衍生的经典研究包括高速浮点解析库的开发与验证。例如FastFloat等开源项目利用其边界测试案例实现了突破性的解析加速;天文数据处理领域则参照gaia.txt的星体坐标结构,构建了新的星表数据压缩标准。这些衍生工作不仅推动了IEEE-754标准的实践应用,更催生了跨学科的高性能计算解决方案。
数据集最近研究
最新研究方向
在浮点数数据处理领域,float-data数据集凭借其涵盖地理空间坐标、金融时间序列及深度学习权重等多元场景的独特优势,正推动数值解析算法的边界探索。当前研究聚焦于利用其合成的IEEE-754极端值数据集hellfloat64,对新型字符串转换算法进行鲁棒性压力测试,同时结合天文观测数据gaia.txt的大动态范围特征,优化科学计算中的精度控制策略。随着边缘计算与物联网技术发展,该数据集在嵌入式系统数值处理、金融科技实时分析等热点场景中,为构建高可靠性数值计算基础设施提供了关键基准支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作