pbevan11/synthetic-ocr-correction-gpt4o

Name: pbevan11/synthetic-ocr-correction-gpt4o
Creator: pbevan11
Published: 2024-06-13 19:56:15
License: 暂无描述

Hugging Face2024-06-13 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/pbevan11/synthetic-ocr-correction-gpt4o

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含10,000个新闻文本样本，这些文本来自[fancyzhx/ag_news]数据集，并通过GPT-4o生成了OCR错误，以模拟旧报纸中的文本转录错误。数据集的目的是为微调OCR校正模型提供真实的基础数据。数据集的特征包括索引、损坏文本、原始文本和标签，标签分为四类：世界、体育、商业和科技。

提供机构：

pbevan11

原始信息汇总

数据集概述

数据集信息

特征:
- index: 数据类型为 int64
- corrupt_text: 数据类型为 string
- text: 数据类型为 string
- label: 数据类型为 class_label，包含以下类别:
  - 0: World
  - 1: Sports
  - 2: Business
  - 3: Sci/Tech
分割:
- train: 包含 10000 条数据，占用 6170733 字节
下载大小: 4642574 字节
数据集大小: 6170733 字节

配置

配置名称: default
数据文件:
- train: 路径为 data/train-*

数据集描述

数据集包含 10000 条新闻文本，这些文本来自 fancyzhx/ag_news，并人工生成了 OCR 错误。
目的是模拟旧报纸通过 OCR 转录时常见的错误，参考数据集为 biglam/bnl_newspapers1841-1879。
错误文本由 OpenAI 的 GPT-4o 生成。
相关代码和提示可在这里找到。

引用

@misc {peter_j._bevan_2024, author = { {Peter J. Bevan} }, title = { synthetic-ocr-correction-gpt4o (Revision 667a6c5) }, year = 2024, url = { https://huggingface.co/datasets/pbevan11/synthetic-ocr-correction-gpt4o }, doi = { 10.57967/hf/2414 }, publisher = { Hugging Face } }

5,000+

优质数据集

54 个

任务类型

进入经典数据集