Little Dorrit Editor
收藏github2025-04-17 更新2025-04-27 收录
下载链接:
https://github.com/PAIR-Systems-Inc/little-dorrit-editor
下载链接
链接失效反馈官方服务:
资源简介:
该基准测试评估多模态语言模型(LLMs)解释印刷文本中手写编辑校正的能力。使用查尔斯·狄更斯的《小杜丽》的注释扫描件,挑战模型准确捕捉人类编辑意图。
This benchmark assesses the ability of multimodal large language models (LLMs) to interpret handwritten editorial corrections within printed texts. It utilizes annotated scanned copies of Charles Dickens' *Little Dorrit* to challenge models to accurately capture the intent behind human editorial revisions.
创建时间:
2025-04-05
原始信息汇总
Little Dorrit Editor 数据集概述
数据集简介
- 用途:评估多模态语言模型(LLMs)解释印刷文本中手写编辑修改的能力
- 数据来源:查尔斯·狄更斯小说《小杜丽》的注释扫描页
基准测试详情
任务描述
- 输入:带有手写标记/修正的印刷页面的JPEG图像
- 输出:表示预期修改的JSON编辑操作列表
- 评估方法:使用LLM评判器比较预测编辑与真实编辑
- 评估指标:精确率、召回率和F1分数
编辑类型
insertion:添加新文本deletion:删除现有文本replacement:用替代文本替换punctuation:修改或添加标点符号capitalization:更改大小写(大写/小写)italicize:将文本改为斜体
行编号约定
- 正文第一行行号为1
- 章节名称(如"Chapter II")不计为行
- 章节标题或节标题(如"Fellow Travellers")称为行0
数据集组织
数据分类
-
示例数据 (
data/sample/):- 公开示例,包含在代码库中
- 用于演示、开发和测试
- 包含少量代表性示例
-
评估数据 (
data/eval/):- 私有基准测试数据,未包含在Git中
- 用于官方评估和排行榜排名
- 包含全面的测试示例集
- 访问受限以保持基准测试的完整性
Hugging Face数据集
完整数据集可在Hugging Face获取:https://huggingface.co/datasets/pairsys/little-dorrit-editor
许可证
- 项目采用MIT许可证
搜集汇总
数据集介绍

构建方式
在数字人文研究领域,手写批注的数字化处理一直是个技术难点。Little Dorrit Editor数据集创新性地选取了查尔斯·狄更斯经典著作《小杜丽》的手稿扫描件作为基础素材,通过专业编辑人员对印刷文本中的手写修改标记进行系统标注。数据集构建过程中,采用分层抽样策略从原始手稿中选取代表性页面,由文献学专家按照六种标准编辑类型(插入、删除、替换等)进行标注,并建立了统一的行号标注规范以确保文本定位的准确性。所有标注结果均经过交叉验证,最终形成结构化JSON格式的编辑操作记录。
特点
该数据集最显著的特点是实现了古典文学与人工智能技术的跨时空对话。作为首个专注于手写编辑标记识别的多模态基准测试,它包含了丰富的语义修改类型,从简单的标点修正到复杂的段落重组一应俱全。数据样本完整保留了19世纪英语的语法特征和狄更斯独特的写作风格,为模型理解历史语言变体提供了珍贵素材。特别设计的行号标注系统既保持了原文结构,又支持对标题等特殊文本元素的编辑操作,展现出兼顾传统文献规范与现代技术需求的精巧平衡。
使用方法
研究者可通过Hugging Face平台直接获取该数据集,项目提供的Python工具链支持完整的评估流程。使用前需配置包含OpenAI等API密钥的TOML文件,通过自动化脚本可实现从预测生成到结果评估的一站式处理。系统支持零样本和少样本学习模式,用户可选择不同大语言模型进行对比实验。评估阶段采用专门设计的LLM裁判机制,通过精确率、召回率等指标量化模型性能。项目还包含数据转换工具,可将原始扫描件转换为符合Hugging Face格式的标准数据集,方便与现有NLP pipeline集成。
背景与挑战
背景概述
Little Dorrit Editor数据集由Pairsys团队于2023年创建,旨在评估多模态语言模型对手写编辑标注的解析能力。该数据集基于查尔斯·狄更斯经典著作《小杜丽》的扫描页面,通过精心设计的手写编辑标注,为自然语言处理领域提供了首个专注于编辑意图理解的基准测试。其创新性地将文学文本分析与现代语言模型评估相结合,不仅延续了狄更斯作品中蕴含的人文关怀,更为文本修订任务的自动化研究开辟了新方向。该数据集通过精确标注的插入、删除、替换等六类编辑操作,为研究者在文档数字化、协同编辑等应用场景提供了重要实验平台。
当前挑战
该数据集主要面临两大核心挑战:在领域问题层面,手写编辑标注的模糊性使得模型需要同时理解印刷文本语义与手写符号意图,这对多模态模型的跨模态理解能力提出了极高要求;在构建过程中,如何建立统一的标注规范以覆盖多样化的编辑行为,以及确保不同标注者对手写标记理解的一致性,成为数据集质量控制的重大难题。此外,由于文学文本特有的修辞复杂性,编辑意图往往涉及深层语义转换,这为标注工作的准确性与完整性带来了额外挑战。
常用场景
经典使用场景
在自然语言处理领域,Little Dorrit Editor数据集被广泛用于评估多模态语言模型对手写编辑标记的解析能力。该数据集以查尔斯·狄更斯《小杜丽》的手稿扫描图像为基础,包含丰富的编辑标注,为研究者提供了一个独特的测试平台。模型需要准确识别插入、删除、替换等多种编辑操作,这对理解人类编辑意图提出了全面挑战。
解决学术问题
该数据集有效解决了多模态语言模型在文本编辑理解方面的评估难题。通过精确标注的手写修改样本,研究者能够系统性地考察模型对编辑意图的捕捉能力,填补了传统文本生成评估在编辑任务上的空白。其严谨的评估指标为相关研究提供了可靠的性能基准,推动了文本理解技术的进步。
衍生相关工作
围绕该数据集已产生多项重要研究,包括基于注意力机制的编辑意图识别模型、跨模态编辑表示学习方法等。部分工作进一步扩展了数据集的应用范围,如将其迁移至法律文书修改、编程代码审查等领域。这些衍生研究不断丰富着手写编辑理解的技术体系。
以上内容由遇见数据集搜集并总结生成



