ICDAR 2019|文档分析数据集|文本识别数据集
收藏
- ICDAR 2019数据集首次发布,作为国际文档分析与识别会议(ICDAR)的一部分,该数据集旨在推动文本检测与识别技术的研究与发展。
- ICDAR 2019数据集首次应用于多个文本识别竞赛中,包括鲁棒阅读挑战赛(Robust Reading Competition),吸引了全球研究者的广泛参与。
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
TimeExtractor
该数据集由JioNLP创建,旨在微调大型语言模型(LLMs)以从文本中提取时间实体,并将其标准化为JSON格式。数据集分为两部分:general.json包含从各种新闻来源提取的样本,smartspeaker.json包含从语音助手获取的样本。提取过程首先从文本中提取原始时间实体字符串,然后通过大型模型进行标准化处理,最终结果可以输入到JioNLP的时间解析模块jio.parse中进行处理,以获得准确可靠的结果。数据集目前规模较小,未来可以通过添加各种类型的文本来扩展。
huggingface 收录
AerialMegaDepth
AerialMegaDepth数据集是由卡内基梅隆大学研究者创建的,该数据集结合了伪合成渲染和真实地面图像,旨在推进从地面和空中视角的图像中学习几何重建和视图合成任务。数据集通过将3D城市级网格的伪合成渲染与来自MegaDepth的真实地面级图像在统一坐标系中注册,包含了137个地标和132,137个地理注册图像。该数据集在具有挑战性的地面-空中场景中,显著提高了基于学习的方法在多视图几何预测和新型视图合成任务上的性能。
arXiv 收录
ClinicalTrials.gov
Provides patients, family members, health care professionals, and members of the public easy access to information on clinical trials for a wide range of diseases and conditions.
OPEN DATA NETWORK 收录
Asteroids by the Minor Planet Center
包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。
github 收录