five

jdpressman/retro-easy-prose-repair-diffs-v0.1

收藏
Hugging Face2024-07-13 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/jdpressman/retro-easy-prose-repair-diffs-v0.1
下载链接
链接失效反馈
官方服务:
资源简介:
RetroInstruct Easy Prose Repair Diffs数据集用于训练语言模型,通过输出差异(diff)来修复文本中的错误。数据集通过反向翻译生成,使用传统程序对文本进行合成破坏,然后生成修复后的文本。数据集包含多种格式的差异(如GNU diff、Git diff、diff match patch),并提供了详细的文本破坏和修复示例。数据集的用途包括节省模型生成文本时的token、改进文本模型的代理工作流程、以及训练模型进行字符级别的操作。数据集的文本基于Mixtral 8x22B模型生成,并使用了JDP的短篇写作作为基础,因此可能存在视角和主题多样性的限制。

The RetroInstruct Easy Prose Repair Diffs dataset is used to train language models to repair prose by outputting a diff that patches its flaws. The dataset is generated through backtranslation, where synthetic corruptions are applied to the text using traditional programs, and then the text is repaired. The dataset includes various diff formats (e.g., GNU diff, Git diff, diff match patch) and provides detailed examples of text corruption and repair. The datasets use cases include saving tokens during text generation, improving agent workflows for text-only models, and training models for subatomic character-level operations. The text in the dataset is generated based on the Mixtral 8x22B model and uses JDPs short-form writing as a foundation, which may result in limitations in viewpoint and subject diversity.
提供机构:
jdpressman
原始信息汇总

RetroInstruct Easy Prose Repair Diffs 数据集概述

数据集描述

  • 名称: RetroInstruct Easy Prose Repair Diffs
  • 语言: 英语
  • 标签: 合成数据
  • 许可证: CC0 1.0

数据集生成

  • 生成方法: 通过回译(backtranslation)生成,使用合成损坏(synthetic corruption)技术对散文进行处理。
  • 损坏类型: 主要使用传统程序生成的语法损坏(syntactic corruptions),相对于神经网络引入的更细微的语义问题,这些损坏被认为是“简单”的。
  • 源文本: 由 Mixtral 8x22B 模型基于一个长少样本提示生成。

数据结构

  • gnudiff_instruction: 如果使用GNU diff格式,选择的包装指令。
  • gitdiff_instruction: 如果使用Git diff格式,选择的包装指令。
  • dmpdiff_instruction: 如果使用diff match patch格式,选择的包装指令。
  • text_corrupted: 经过合成损坏处理的文本版本。
  • operations: 应用于文本的合成损坏列表。
  • gnudiff: 以GNU diff格式修复损坏文本的补丁。
  • gitdiff: 以Git diff格式修复损坏文本的补丁。
  • dmpdiff: 以diff match patch格式修复损坏文本的补丁。
  • text_clean: 用于回译的原始文本。

使用案例

  • 节省令牌: 通过让模型直接纠正错误而不是重新生成来节省令牌。
  • 改进代理工作流: 通过让代理“指向”特定“屏幕元素”并直接使用就地补丁来处理它们,从而改进文本模型的代理工作流。
  • 训练子原子操作: 训练语言模型涉及单个字符的子原子操作,练习超越分词器。

快速开始

  • HuggingFace Datasets: 使用datasets.load_dataset("jdpressman/retro-easy-prose-repair-diffs-v0.1")["train"]加载数据集。
  • 原始数据: 使用train.json文件进行数据加载和处理。

偏见与限制

  • 源文本偏见: 回译的占位符文本基于JDP的短篇写作,可能导致观点和主题多样性较少。
  • 模型限制: 使用Mixtral 8x22B模型生成文本,其预训练集决定了哪些概念和写作方式对其显著。
  • 损坏限制: 合成损坏仅使用传统编程语言编写的函数进行,主要限于语法操作或简单的跨度替换/删除。

计划改进

  • 训练与验证: 计划在数据集上实际训练模型并测量验证损失。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作