five

selex-rt-outputs

收藏
Hugging Face2026-03-19 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/gabelev/selex-rt-outputs
下载链接
链接失效反馈
官方服务:
资源简介:
SeLex-RT Outputs 是一个为低资源语法错误纠正(GEC)任务生成的合成训练数据集,通过往返机器翻译(RT)流程创建,灵感来源于 SeLex-RT 方法。该数据集主要针对词汇错误,这类错误在标准合成 GEC 方法中系统性不足。数据集包含三种目标语言(俄语、乌克兰语、斯洛文尼亚语)和三种枢轴距离(近、中、远),形成一个 3×3 的枢轴语言组合矩阵。数据内容包括合成的(错误,正确)句子对、词汇混淆集、中间翻译输出以及覆盖评估。数据集结构清晰,包含 synthetic、confusion、translations 和 eval 四个主要目录,分别存储不同阶段的数据。数据集适用于多语言 GEC 模型的预训练,旨在提高词汇错误类型的覆盖范围,推荐与标记错误语料库结合使用。数据集基于 CC BY 4.0 许可发布。
创建时间:
2026-03-16
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作