Census-Income, Census 1881, Weather, Wikileaks
收藏github2023-12-28 更新2024-05-31 收录
下载链接:
https://github.com/lemire/RealisticTabularDataSets
下载链接
链接失效反馈官方服务:
资源简介:
Census-Income是一个相对较小的数据集,包含199,523条记录和42列,其中一列有极高的相对基数(99,800个不同值)。Census 1881来自1881年加拿大人口普查,包含超过400万条记录。Weather数据集包含1985年9月的陆地气象站表面天气报告。Wikileaks数据集包含从Google公开库中提取的非机密外交电报元数据,包含1,178,559条记录。
The Census-Income dataset is relatively small, comprising 199,523 records and 42 columns, one of which has an exceptionally high relative cardinality (99,800 distinct values). The Census 1881 dataset originates from the 1881 Canadian Census and includes over 4 million records. The Weather dataset contains surface weather reports from land-based meteorological stations for September 1985. The Wikileaks dataset consists of metadata from non-classified diplomatic cables extracted from Google's public repository, encompassing 1,178,559 records.
创建时间:
2018-01-25
原始信息汇总
数据集概述
1. Census-Income
- 文件: census-income.data.gz (5.7MB)
- 大小: 100 MB
- 记录数: 199,523
- 列数: 42
- 特殊列: 第25列有99,800个不同值
- 子集: census-income.data.d241850.csv.gz,包含4列:年龄、每小时工资、股票红利和第25列的数值
- 子集列的基数: 91, 1,240, 1,478, 99,800
- 来源: UCI机器学习仓库
2. Census 1881
- 文件: census1881.csv.gz (33MB)
- 记录数: 超过400万
- 列的基数: 183, 2,127, 2,795, 8,837, 24,278, 152,365, 152,882
- 来源: ACM Transactions on Database Systems
3. Weather
- 文件: weather_sept_85.csv.gz (15MB)
- 内容: 1985年9月的地面天气报告
- 来源: UCI机器学习仓库
4. Wikileaks
- 文件: wikileaks-noquotes.csv.gz (5.9MB)
- 记录数: 1,178,559
- 列数: 4
- 列的基数: 273, 1,440, 3,935, 4,865
- 来源: ACM Transactions on Database Systems
5. Sorted versions
- 文件:
- census-income_srt.csv.gz
- wikileaks-noquotes_srt.csv.gz
- weather_sept_85_srt.csv.gz
- census1881_srt.csv.gz
- 排序方式: 按列的基数从小到大排序
数据集来源
- UCI机器学习仓库: 用于Census-Income和Weather数据集
- ACM Transactions on Database Systems: 用于Census 1881和Wikileaks数据集
数据集使用
- 这些数据集已被用于多个学术论文中。
搜集汇总
数据集介绍

构建方式
Census-Income数据集源自UCI机器学习库,包含了199,523条记录和42个特征列,其中一个特征列具有高达99,800的独特值。为了便于使用,数据集还提供了一个子集,仅包含年龄、每小时工资、股票分红以及原始数据集中第25列的一个数值特征。Census 1881数据集则来自1881年加拿大人口普查的公开SPSS文件,经过处理后转换为平面文件,删除了特殊值并替换了重复值。Weather数据集包含了1985年9月的地面天气报告,而Wikileaks数据集则基于Google公开的非机密外交电报元数据,提取了年份、时间、地点和描述性代码四个特征。
特点
Census-Income数据集的特点在于其高维度和高基数特征,尤其是其中一个特征列的独特值数量接近10万,这为数据压缩和索引优化提供了挑战。Census 1881数据集则以其大规模记录(超过400万条)和多维特征著称,适合用于研究数据排序和压缩技术。Weather数据集提供了详细的天气观测数据,适用于时间序列分析和气象研究。Wikileaks数据集则以其丰富的元数据和多类别特征为特点,适合用于文本分析和分类任务。
使用方法
这些数据集以CSV格式提供,并经过gzip压缩,用户可以通过gunzip或7-Zip等工具解压。为了优化数据存储和查询效率,数据集还提供了按列基数排序的版本,用户可以根据需求选择原始数据或排序后的版本。这些数据集已被广泛应用于学术研究,特别是在数据压缩、索引优化和机器学习领域。用户可以通过UCI机器学习库或其他公开数据源获取更多相关信息,并结合具体研究需求进行数据预处理和分析。
背景与挑战
背景概述
Census-Income数据集源自2010年UCI机器学习库,由Frank和Asuncion等人创建,旨在为研究者提供一个关于人口收入统计的详细数据集。该数据集包含199,523条记录和42个特征列,其中一个特征具有高达99,800的独特值,反映了人口统计数据的复杂性和多样性。Census-Income数据集在机器学习领域中被广泛用于分类和回归任务,尤其是在社会经济预测和人口分析中具有重要应用价值。此外,Census 1881数据集则来源于1881年加拿大人口普查数据,经过Lemire等人整理和转换,提供了超过400万条记录,为历史人口学研究提供了宝贵资源。Weather数据集则记录了1985年9月的地面气象观测数据,为气象学和气候研究提供了基础数据支持。Wikileaks数据集则基于公开的外交电报元数据,为信息检索和文本分析研究提供了丰富的实验材料。
当前挑战
Census-Income数据集的主要挑战在于其高维度和高基数特征的处理。特别是其中一个特征具有99,800个独特值,这对数据预处理、特征工程和模型训练提出了较高的要求。此外,数据集中可能存在缺失值和噪声,进一步增加了分析的复杂性。Census 1881数据集在构建过程中面临的主要挑战是数据格式的转换和清理,特别是如何处理特殊值(如“ditto”和“do.”)以及删除值中的逗号。Weather数据集的挑战在于如何处理和整合来自不同气象站的非结构化数据,并确保数据的时空一致性。Wikileaks数据集的挑战则在于如何从海量非结构化文本中提取有效信息,并处理元数据的稀疏性和不一致性。这些挑战不仅考验了数据预处理技术,也对后续的机器学习和数据分析方法提出了更高的要求。
常用场景
经典使用场景
Census-Income数据集广泛应用于社会经济研究领域,特别是在收入不平等和人口统计学的分析中。该数据集通过提供详细的年龄、小时工资、股票分红等信息,为研究者提供了一个丰富的资源,用于探索不同社会经济群体的收入分布和影响因素。其高基数特性使得在数据压缩和索引优化方面也具有重要的研究价值。
衍生相关工作
Census-Income数据集衍生了许多经典的研究工作,特别是在数据压缩和索引优化领域。例如,Lemire等人提出的行重排序技术,通过优化数据的存储顺序,显著提高了数据压缩率和查询效率。此外,该数据集还被用于研究位图索引的优化方法,如Roaring Bitmaps技术,这些研究不仅提升了数据库系统的性能,还为大数据处理提供了新的解决方案。
数据集最近研究
最新研究方向
近年来,Census-Income、Census 1881、Weather和Wikileaks等数据集在数据压缩、机器学习和社会科学领域的研究中备受关注。特别是在数据压缩领域,研究者们通过重新排序行数据以优化压缩效果,提出了超越传统字典序的排序方法。例如,Lemire等人提出的基于列基数排序的方法,显著提高了数据压缩效率,并在多个学术论文中得到验证。此外,这些数据集还被广泛应用于机器学习模型的训练和测试,尤其是在处理高基数特征时,研究者们探索了如何有效处理稀疏数据和高维特征。Weather数据集在气象学研究中也被用于分析历史天气模式,为气候变化研究提供了宝贵的数据支持。Wikileaks数据集则在社会网络分析和信息传播研究中发挥了重要作用,帮助研究者理解信息泄露事件的影响和传播机制。这些数据集的研究不仅推动了数据科学领域的技术进步,也为跨学科研究提供了丰富的数据资源。
以上内容由遇见数据集搜集并总结生成



