grammarly/medit
收藏Hugging Face2024-10-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/grammarly/medit
下载链接
链接失效反馈官方服务:
资源简介:
mEdIT数据集是一个用于多语言文本编辑任务的数据集,支持英语、德语、阿拉伯语、日语、韩语、西班牙语和中文。数据集以JSON格式存储,包含实例ID、语言、语言代码、数据来源、任务类型、输入文本、参考文本、输出文本和完整提示等信息。该数据集用于训练mEdIT文本编辑模型,详细信息可在相关论文中找到。由于许可限制,部分数据无法公开分享。
mEdIT数据集是一个用于多语言文本编辑任务的数据集,支持英语、德语、阿拉伯语、日语、韩语、西班牙语和中文。数据集以JSON格式存储,包含实例ID、语言、语言代码、数据来源、任务类型、输入文本、参考文本、输出文本和完整提示等信息。该数据集用于训练mEdIT文本编辑模型,详细信息可在相关论文中找到。由于许可限制,部分数据无法公开分享。
提供机构:
grammarly
原始信息汇总
数据集概述
数据集名称
- mEdIT: Multilingual Text Editing via Instruction Tuning
数据集描述
- 用于训练mEdIT文本编辑模型的数据集。
数据集结构
- 格式:JSON
- 数据实例:包含多个字段,如
instance,language,lang,dataset,task,src,refs,tgt,prompt。
数据字段
instance: 实例IDlanguage: 输入和编辑文本的语言lang: ISO-639-1语言代码dataset: 当前例子的来源task: 此实例的文本编辑任务src: 输入文本refs: 参考文本tgt: 输出文本prompt: 训练模型的完整提示(指令+输入)
数据集规模
- 大小:10K<n<100K
- 实例数量:102k(公共版本)
语言支持
- 支持语言:英语(en)、德语(de)、阿拉伯语(ar)、日语(ja)、韩语(ko)、西班牙语(es)、中文(zh)
许可证
- 许可证:CC-BY-NC-4.0
使用注意事项
- 公共版本仅包含从公开可用数据集中获取和策划的实例。
- 部分数据由于许可证限制无法公开分享。
引用信息
@misc{raheja2024medit, title={mEdIT: Multilingual Text Editing via Instruction Tuning}, author={Vipul Raheja and Dimitris Alikaniotis and Vivek Kulkarni and Bashar Alhafni and Dhruv Kumar}, year={2024}, eprint={2402.16472}, archivePrefix={arXiv}, primaryClass={cs.CL} }



