selex-rt-outputs
收藏Hugging Face2026-03-19 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/gabelev/selex-rt-outputs
下载链接
链接失效反馈官方服务:
资源简介:
SeLex-RT Outputs 是一个为低资源语法错误纠正(GEC)任务生成的合成训练数据集,通过往返机器翻译(RT)流程创建,灵感来源于 SeLex-RT 方法。该数据集主要针对词汇错误,这类错误在标准合成 GEC 方法中系统性不足。数据集包含三种目标语言(俄语、乌克兰语、斯洛文尼亚语)和三种枢轴距离(近、中、远),形成一个 3×3 的枢轴语言组合矩阵。数据内容包括合成的(错误,正确)句子对、词汇混淆集、中间翻译输出以及覆盖评估。数据集结构清晰,包含 synthetic、confusion、translations 和 eval 四个主要目录,分别存储不同阶段的数据。数据集适用于多语言 GEC 模型的预训练,旨在提高词汇错误类型的覆盖范围,推荐与标记错误语料库结合使用。数据集基于 CC BY 4.0 许可发布。
创建时间:
2026-03-16



