Hospital
收藏github2024-04-28 更新2024-05-31 收录
下载链接:
https://github.com/deweydbb/data_clean_datasets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来自Holoclean项目,错误约占总数据的5%。所有单元格都有真实信息。该数据集在单元格间存在显著的重复。我们使用它来评估HoloClean在清理过程中利用重复信息的有效性。
This dataset originates from the Holoclean project, with errors accounting for approximately 5% of the total data. All cells contain genuine information. The dataset exhibits significant duplication among cells. We utilize it to evaluate the effectiveness of HoloClean in leveraging duplicated information during the cleaning process.
创建时间:
2024-04-21
原始信息汇总
Hospital
- 来源: 来自Holoclean项目(https://github.com/HoloClean)
- 特点: 数据错误率约为5%,所有单元格均有真实信息。数据集存在显著的单元格重复。
- 用途: 用于评估HoloClean在数据清洗过程中利用重复信息的效果。
Flights
- 来源: 来自Holoclean项目(https://github.com/HoloClean)
- 特点: 大部分单元格含有噪声,每个元组的血统已知。
- 用途: 用于测试HoloClean在大量错误存在时的稳健性,以及评估其是否能利用数据源间的冲突来识别正确的数据修复。
Adults
- 来源: 来自fm_data_tasks/HazyResearch项目(https://github.com/HazyResearch/fm_data_tasks)
- 生成方式: 基于清洁数据,通过error-generator(https://github.com/BigDaMa/error-generator)生成脏数据。
- 特点: 脏数据包含常见的qwerty键盘上的拼写错误、缺失值和隐式缺失值(如年龄=0),以及列间值的替换。
搜集汇总
数据集介绍

构建方式
Hospital数据集源自Holoclean项目,其构建方式旨在模拟真实世界中的数据错误情况。该数据集包含了约5%的错误数据,且所有单元格均附带真实值信息。通过引入显著的单元格重复现象,该数据集的设计意图在于评估HoloClean在数据清洗过程中利用重复信息的能力。
使用方法
Hospital数据集主要用于评估和优化数据清洗算法,特别是那些依赖于重复信息进行错误检测和修复的算法。研究者可以通过对比清洗前后的数据质量,分析算法在处理重复数据时的表现,从而为提升数据清洗效率和准确性提供依据。
背景与挑战
背景概述
Hospital数据集源自Holoclean项目,该项目致力于数据清洗与修复技术的研究。该数据集在相关文献中被描述为包含约5%的错误数据,且所有单元格均具备真实值信息。其显著特点是数据单元格间存在大量重复,这为评估Holoclean在利用重复信息进行数据清洗时的效果提供了理想平台。通过此数据集,研究者能够深入探讨数据清洗技术在处理重复数据时的有效性,进而推动数据质量管理领域的发展。
当前挑战
Hospital数据集的主要挑战在于其数据单元格间的高度重复性,这要求数据清洗工具必须具备识别和利用重复信息的能力。此外,尽管数据集提供了真实值信息,但如何有效利用这些信息进行错误检测和修复仍是一个技术难题。数据集中的错误率虽不高,但如何在不显著增加计算复杂度的情况下实现高效清洗,是当前研究面临的重要挑战。
常用场景
经典使用场景
Hospital数据集在数据清洗领域中被广泛用于评估数据修复算法的有效性。该数据集包含了约5%的错误数据,并且所有单元格的地面真实信息均可用。通过利用数据中的重复信息,研究者可以评估清洗算法在处理重复数据时的表现,特别是在识别和修复错误数据方面的能力。
解决学术问题
Hospital数据集解决了数据清洗领域中如何有效利用重复信息进行数据修复的学术问题。通过提供带有地面真实信息的错误数据,该数据集帮助研究者验证和改进数据清洗算法,特别是在处理重复数据时的准确性和效率。这对于提高数据质量、减少数据分析中的错误具有重要意义。
实际应用
在实际应用中,Hospital数据集可用于开发和测试数据清洗工具,这些工具在医疗信息系统、患者记录管理等场景中具有广泛应用。通过提高数据清洗的准确性,可以确保医疗数据的完整性和可靠性,从而支持更精确的临床决策和研究分析。
数据集最近研究
最新研究方向
在医疗数据管理领域,Hospital数据集因其包含的错误数据和可用的真实信息而备受关注。最新的研究方向主要集中在利用数据重复性进行数据清洗和错误检测,特别是在评估HoloClean等自动化工具在处理医疗数据中的有效性。这一研究不仅有助于提高医疗数据的质量,还能为医疗决策提供更可靠的数据支持,从而在医疗信息化进程中发挥重要作用。
以上内容由遇见数据集搜集并总结生成



