five

grammarly/medit

收藏
Hugging Face2024-10-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/grammarly/medit
下载链接
链接失效反馈
官方服务:
资源简介:
mEdIT数据集是一个用于多语言文本编辑任务的数据集,支持英语、德语、阿拉伯语、日语、韩语、西班牙语和中文。数据集以JSON格式存储,包含实例ID、语言、语言代码、数据来源、任务类型、输入文本、参考文本、输出文本和完整提示等信息。该数据集用于训练mEdIT文本编辑模型,详细信息可在相关论文中找到。由于许可限制,部分数据无法公开分享。

mEdIT数据集是一个用于多语言文本编辑任务的数据集,支持英语、德语、阿拉伯语、日语、韩语、西班牙语和中文。数据集以JSON格式存储,包含实例ID、语言、语言代码、数据来源、任务类型、输入文本、参考文本、输出文本和完整提示等信息。该数据集用于训练mEdIT文本编辑模型,详细信息可在相关论文中找到。由于许可限制,部分数据无法公开分享。
提供机构:
grammarly
原始信息汇总

数据集概述

数据集名称

  • mEdIT: Multilingual Text Editing via Instruction Tuning

数据集描述

  • 用于训练mEdIT文本编辑模型的数据集。

数据集结构

  • 格式:JSON
  • 数据实例:包含多个字段,如instance, language, lang, dataset, task, src, refs, tgt, prompt

数据字段

  • instance: 实例ID
  • language: 输入和编辑文本的语言
  • lang: ISO-639-1语言代码
  • dataset: 当前例子的来源
  • task: 此实例的文本编辑任务
  • src: 输入文本
  • refs: 参考文本
  • tgt: 输出文本
  • prompt: 训练模型的完整提示(指令+输入)

数据集规模

  • 大小:10K<n<100K
  • 实例数量:102k(公共版本)

语言支持

  • 支持语言:英语(en)、德语(de)、阿拉伯语(ar)、日语(ja)、韩语(ko)、西班牙语(es)、中文(zh)

许可证

  • 许可证:CC-BY-NC-4.0

使用注意事项

  • 公共版本仅包含从公开可用数据集中获取和策划的实例。
  • 部分数据由于许可证限制无法公开分享。

引用信息

@misc{raheja2024medit, title={mEdIT: Multilingual Text Editing via Instruction Tuning}, author={Vipul Raheja and Dimitris Alikaniotis and Vivek Kulkarni and Bashar Alhafni and Dhruv Kumar}, year={2024}, eprint={2402.16472}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作