anony.s
收藏github2023-04-14 更新2024-05-31 收录
下载链接:
https://github.com/x35f/MCM2019_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2019年MCM认证的文本实例,这些实例是从JPG格式的认证文件通过tesseract-ocr转换而来。参与者的名字已被匿名化,仅存储姓氏(部分可能是名字,仅为格式问题)。数据集可以通过运行命令pickle.load(anony.s,rb)来加载。
This dataset comprises text instances certified by MCM in 2019, which were converted from certification files in JPG format using tesseract-ocr. The names of the participants have been anonymized, with only surnames stored (some may be first names, due to formatting issues). The dataset can be loaded by executing the command pickle.load(anony.s, rb).
创建时间:
2019-04-23
原始信息汇总
数据集概述
数据集名称
mcm2019 certifications
数据集内容
- 认证信息:存储为
Cert_text实例,由cert.py中的tesseract-ocr从jpg格式的认证文件转换而来。 - 参与者姓名:已匿名处理,仅存储姓氏(部分可能是名字,因格式问题)。
数据集加载方法
使用命令 pickle.load(anony.s,rb) 加载数据集。
数据集查询工具
提供了一个简单的查询脚本proc.py,其参数包括:
- --name str:参与者姓名
- --school str:学校名称
- --award str:奖项类型
- --control int:控制编号
- --print-cert action=store_true:打印满足请求的每个证书
- --file str:数据集名称,默认值为anony.s
示例:python proc.py --school berkeley
数据集修正功能
使用calibrate_sc函数修正tesseract-ocr造成的常见错误。
搜集汇总
数据集介绍

构建方式
anony.s数据集的构建过程始于将jpg格式的证书文件通过tesseract-ocr技术转换为文本格式。在此过程中,参与者的姓名被匿名化处理,仅保留姓氏,部分情况下可能因格式问题保留了名字。转换后的文本数据被存储为Cert_text类的实例,并通过pickle库进行序列化保存,以便于后续的数据加载和处理。
特点
anony.s数据集的特点在于其高度匿名化的处理方式,确保了个人隐私的保护。数据集中的证书信息经过tesseract-ocr的转换,虽然可能存在一些识别错误,但通过内置的calibrate_sc函数可以修正常见的OCR错误。此外,数据集提供了灵活的查询功能,用户可以根据参与者姓名、学校名称、奖项类型和控制编号等条件进行筛选,并支持打印符合条件的证书。
使用方法
使用anony.s数据集时,用户可以通过运行pickle.load命令加载数据。数据集附带了一个简单的查询脚本proc.py,用户可以通过命令行参数指定查询条件,如参与者姓名、学校名称、奖项类型等。所有参数需以小写形式提供。查询结果可以进一步通过--print-cert参数打印出符合条件的证书。此外,calibrate_sc函数可用于修正OCR转换过程中产生的常见错误,确保数据的准确性。
背景与挑战
背景概述
anony.s数据集源自2019年美国大学生数学建模竞赛(MCM)的认证文件,由参赛者的证书通过tesseract-ocr技术从jpg格式转换而来。该数据集的主要研究人员或机构未明确提及,但其核心研究问题聚焦于如何高效地存储和检索大量匿名化的认证信息。数据集中的参与者姓名已被匿名处理,仅保留姓氏,部分可能因格式问题保留了名字。该数据集对数学建模竞赛及相关教育领域的研究具有重要参考价值,尤其是在数据隐私保护和信息检索效率方面。
当前挑战
anony.s数据集在构建过程中面临多重挑战。首先,tesseract-ocr技术在转换证书文本时可能引入识别错误,需通过calibrate_sc函数进行校准以修复常见错误。其次,数据匿名化处理虽保护了隐私,但也可能导致部分信息丢失或格式不一致,增加了数据处理的复杂性。此外,数据集的高效检索依赖于精确的参数匹配,这对用户输入的规范性和脚本的鲁棒性提出了较高要求。这些挑战不仅反映了数据构建的技术难点,也凸显了在隐私保护与数据可用性之间寻求平衡的重要性。
常用场景
经典使用场景
在学术竞赛和认证领域,anony.s数据集被广泛用于分析和验证参赛者的认证信息。通过OCR技术从jpg格式的证书中提取文本,数据集提供了匿名化的参与者信息,便于研究人员在不泄露个人隐私的情况下进行数据挖掘和分析。
实际应用
在实际应用中,anony.s数据集被用于教育机构和竞赛组织者的后台管理系统,帮助快速检索和验证参赛者的认证信息。通过提供的简单查找脚本,用户可以按学校、奖项类型等条件筛选数据,极大提升了数据处理的效率和准确性。
衍生相关工作
基于anony.s数据集,许多研究工作得以展开,特别是在OCR技术的优化和匿名化数据处理领域。例如,一些研究专注于改进OCR识别精度,减少证书文本提取中的错误;另一些研究则探索如何在匿名化数据中保留更多有用信息,以支持更复杂的分析任务。
以上内容由遇见数据集搜集并总结生成



