five

phyloforfun/HLT_MICH_Angiospermae_SLTPvA_v1-0__OCR-C25-L25-E25-R05

收藏
Hugging Face2023-11-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/phyloforfun/HLT_MICH_Angiospermae_SLTPvA_v1-0__OCR-C25-L25-E25-R05
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集采用Alpaca格式,包含所有截至2023年11月28日的MICH被子植物条目。数据集还包含合成OCR处理,模拟了OCR噪声和错误。具体来说,25%的单元格会随机变为全大写,25%的单元格会随机变为全小写,25%的行会进行合成OCR增强,5%的字符在OCR增强行中会经历替换、删除或插入错误。此外,OCR增强行还会随机插入字符串以模拟OCR噪声。系统消息要求将非结构化文本重构为符合Darwin Core Archive标准的JSON字典。

该数据集采用Alpaca格式,包含所有截至2023年11月28日的MICH被子植物条目。数据集还包含合成OCR处理,模拟了OCR噪声和错误。具体来说,25%的单元格会随机变为全大写,25%的单元格会随机变为全小写,25%的行会进行合成OCR增强,5%的字符在OCR增强行中会经历替换、删除或插入错误。此外,OCR增强行还会随机插入字符串以模拟OCR噪声。系统消息要求将非结构化文本重构为符合Darwin Core Archive标准的JSON字典。
提供机构:
phyloforfun
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • instruction: 字符串类型
    • input: 字符串类型
    • output: 字符串类型
  • 分割:
    • train: 16878481512 字节, 10134076 个样本
  • 下载大小: 1579045698 字节
  • 数据集大小: 16878481512 字节
  • 配置:
    • default: 数据文件路径为 data/train-*
  • 许可证: cc-by-sa-4.0

数据集格式

  • 格式: Alpaca 格式
  • 内容: 截至2023年11月28日(v1-0)的所有MICH Angiospermae条目

合成OCR

  • C25: 25%的单元格将随机全部大写
  • L25: 25%的单元格将随机全部小写
  • E25: 所有行中的25%将进行合成OCR增强
  • R05: 在OCR增强行中,每个字符有5%的几率发生替换、删除或插入错误
  • 额外: OCR增强行中还会随机插入字符串以模拟OCR噪声

系统消息

  • 任务: 将非结构化文本重构为有效的JSON字典
  • 键名: 遵循Darwin Core Archive标准
  • 内容填充: 如果键缺少内容,则插入空字符串
  • JSON结构: json { "catalogNumber": "", "order": "", "family": "", "scientificName": "", "scientificNameAuthorship": "", "genus": "", "subgenus": "", "specificEpithet": "", "verbatimTaxonRank": "", "infraspecificEpithet": "", "identifiedBy": "", "recordedBy": "", "recordNumber": "", "verbatimEventDate": "", "habitat": "", "occurrenceRemarks": "", "associatedTaxa": "", "country": "", "stateProvince": "", "county": "", "municipality": "", "locality": "", "decimalLatitude": "", "decimalLongitude": "", "verbatimCoordinates": "", "minimumElevationInMeters": "", "maximumElevationInMeters": "" }
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作