pbevan11/synthetic-ocr-correction-gpt4o
收藏Hugging Face2024-06-13 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/pbevan11/synthetic-ocr-correction-gpt4o
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含10,000个新闻文本样本,这些文本来自[fancyzhx/ag_news]数据集,并通过GPT-4o生成了OCR错误,以模拟旧报纸中的文本转录错误。数据集的目的是为微调OCR校正模型提供真实的基础数据。数据集的特征包括索引、损坏文本、原始文本和标签,标签分为四类:世界、体育、商业和科技。
提供机构:
pbevan11
原始信息汇总
数据集概述
数据集信息
- 特征:
index: 数据类型为int64corrupt_text: 数据类型为stringtext: 数据类型为stringlabel: 数据类型为class_label,包含以下类别:0: World1: Sports2: Business3: Sci/Tech
- 分割:
train: 包含 10000 条数据,占用 6170733 字节
- 下载大小: 4642574 字节
- 数据集大小: 6170733 字节
配置
- 配置名称:
default - 数据文件:
train: 路径为data/train-*
数据集描述
- 数据集包含 10000 条新闻文本,这些文本来自 fancyzhx/ag_news,并人工生成了 OCR 错误。
- 目的是模拟旧报纸通过 OCR 转录时常见的错误,参考数据集为
biglam/bnl_newspapers1841-1879。 - 错误文本由 OpenAI 的 GPT-4o 生成。
- 相关代码和提示可在 这里 找到。
引用
@misc {peter_j._bevan_2024, author = { {Peter J. Bevan} }, title = { synthetic-ocr-correction-gpt4o (Revision 667a6c5) }, year = 2024, url = { https://huggingface.co/datasets/pbevan11/synthetic-ocr-correction-gpt4o }, doi = { 10.57967/hf/2414 }, publisher = { Hugging Face } }



