five

pbevan11/synthetic-ocr-correction-gpt4o

收藏
Hugging Face2024-06-13 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/pbevan11/synthetic-ocr-correction-gpt4o
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含10,000个新闻文本样本,这些文本来自[fancyzhx/ag_news]数据集,并通过GPT-4o生成了OCR错误,以模拟旧报纸中的文本转录错误。数据集的目的是为微调OCR校正模型提供真实的基础数据。数据集的特征包括索引、损坏文本、原始文本和标签,标签分为四类:世界、体育、商业和科技。
提供机构:
pbevan11
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • index: 数据类型为 int64
    • corrupt_text: 数据类型为 string
    • text: 数据类型为 string
    • label: 数据类型为 class_label,包含以下类别:
      • 0: World
      • 1: Sports
      • 2: Business
      • 3: Sci/Tech
  • 分割:
    • train: 包含 10000 条数据,占用 6170733 字节
  • 下载大小: 4642574 字节
  • 数据集大小: 6170733 字节

配置

  • 配置名称: default
  • 数据文件:
    • train: 路径为 data/train-*

数据集描述

  • 数据集包含 10000 条新闻文本,这些文本来自 fancyzhx/ag_news,并人工生成了 OCR 错误。
  • 目的是模拟旧报纸通过 OCR 转录时常见的错误,参考数据集为 biglam/bnl_newspapers1841-1879
  • 错误文本由 OpenAI 的 GPT-4o 生成。
  • 相关代码和提示可在 这里 找到。

引用

@misc {peter_j._bevan_2024, author = { {Peter J. Bevan} }, title = { synthetic-ocr-correction-gpt4o (Revision 667a6c5) }, year = 2024, url = { https://huggingface.co/datasets/pbevan11/synthetic-ocr-correction-gpt4o }, doi = { 10.57967/hf/2414 }, publisher = { Hugging Face } }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作