grammarly/medit

Name: grammarly/medit
Creator: grammarly
Published: 2024-10-01 07:31:22
License: 暂无描述

Hugging Face2024-10-01 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/grammarly/medit

下载链接

链接失效反馈

官方服务：

资源简介：

mEdIT数据集是一个用于多语言文本编辑任务的数据集，支持英语、德语、阿拉伯语、日语、韩语、西班牙语和中文。数据集以JSON格式存储，包含实例ID、语言、语言代码、数据来源、任务类型、输入文本、参考文本、输出文本和完整提示等信息。该数据集用于训练mEdIT文本编辑模型，详细信息可在相关论文中找到。由于许可限制，部分数据无法公开分享。

提供机构：

grammarly

原始信息汇总

数据集概述

数据集名称

mEdIT: Multilingual Text Editing via Instruction Tuning

数据集描述

用于训练mEdIT文本编辑模型的数据集。

数据集结构

格式：JSON
数据实例：包含多个字段，如instance, language, lang, dataset, task, src, refs, tgt, prompt。

数据字段

instance: 实例ID
language: 输入和编辑文本的语言
lang: ISO-639-1语言代码
dataset: 当前例子的来源
task: 此实例的文本编辑任务
src: 输入文本
refs: 参考文本
tgt: 输出文本
prompt: 训练模型的完整提示（指令+输入）

数据集规模

大小：10K<n<100K
实例数量：102k（公共版本）

语言支持

支持语言：英语（en）、德语（de）、阿拉伯语（ar）、日语（ja）、韩语（ko）、西班牙语（es）、中文（zh）

许可证

许可证：CC-BY-NC-4.0

使用注意事项

公共版本仅包含从公开可用数据集中获取和策划的实例。
部分数据由于许可证限制无法公开分享。

引用信息

@misc{raheja2024medit, title={mEdIT: Multilingual Text Editing via Instruction Tuning}, author={Vipul Raheja and Dimitris Alikaniotis and Vivek Kulkarni and Bashar Alhafni and Dhruv Kumar}, year={2024}, eprint={2402.16472}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集