phyloforfun/HLT_MICH_Angiospermae_SLTPvA_v1-0__OCR-C25-L25-E25-R05
收藏Hugging Face2023-11-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/phyloforfun/HLT_MICH_Angiospermae_SLTPvA_v1-0__OCR-C25-L25-E25-R05
下载链接
链接失效反馈官方服务:
资源简介:
该数据集采用Alpaca格式,包含所有截至2023年11月28日的MICH被子植物条目。数据集还包含合成OCR处理,模拟了OCR噪声和错误。具体来说,25%的单元格会随机变为全大写,25%的单元格会随机变为全小写,25%的行会进行合成OCR增强,5%的字符在OCR增强行中会经历替换、删除或插入错误。此外,OCR增强行还会随机插入字符串以模拟OCR噪声。系统消息要求将非结构化文本重构为符合Darwin Core Archive标准的JSON字典。
该数据集采用Alpaca格式,包含所有截至2023年11月28日的MICH被子植物条目。数据集还包含合成OCR处理,模拟了OCR噪声和错误。具体来说,25%的单元格会随机变为全大写,25%的单元格会随机变为全小写,25%的行会进行合成OCR增强,5%的字符在OCR增强行中会经历替换、删除或插入错误。此外,OCR增强行还会随机插入字符串以模拟OCR噪声。系统消息要求将非结构化文本重构为符合Darwin Core Archive标准的JSON字典。
提供机构:
phyloforfun
原始信息汇总
数据集概述
数据集信息
- 特征:
instruction: 字符串类型input: 字符串类型output: 字符串类型
- 分割:
train: 16878481512 字节, 10134076 个样本
- 下载大小: 1579045698 字节
- 数据集大小: 16878481512 字节
- 配置:
default: 数据文件路径为data/train-*
- 许可证: cc-by-sa-4.0
数据集格式
- 格式: Alpaca 格式
- 内容: 截至2023年11月28日(v1-0)的所有MICH Angiospermae条目
合成OCR
- C25: 25%的单元格将随机全部大写
- L25: 25%的单元格将随机全部小写
- E25: 所有行中的25%将进行合成OCR增强
- R05: 在OCR增强行中,每个字符有5%的几率发生替换、删除或插入错误
- 额外: OCR增强行中还会随机插入字符串以模拟OCR噪声
系统消息
- 任务: 将非结构化文本重构为有效的JSON字典
- 键名: 遵循Darwin Core Archive标准
- 内容填充: 如果键缺少内容,则插入空字符串
- JSON结构: json { "catalogNumber": "", "order": "", "family": "", "scientificName": "", "scientificNameAuthorship": "", "genus": "", "subgenus": "", "specificEpithet": "", "verbatimTaxonRank": "", "infraspecificEpithet": "", "identifiedBy": "", "recordedBy": "", "recordNumber": "", "verbatimEventDate": "", "habitat": "", "occurrenceRemarks": "", "associatedTaxa": "", "country": "", "stateProvince": "", "county": "", "municipality": "", "locality": "", "decimalLatitude": "", "decimalLongitude": "", "verbatimCoordinates": "", "minimumElevationInMeters": "", "maximumElevationInMeters": "" }



