stukenov/sozkz-corpus-gec-benchmark-kk-v1
收藏Hugging Face2026-04-26 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/stukenov/sozkz-corpus-gec-benchmark-kk-v1
下载链接
链接失效反馈官方服务:
资源简介:
哈萨克语语法错误纠正(GEC)基准数据集。该数据集包含多个分割,包括测试集(200个示例)、合成错误集(401个示例)、社交媒体真实错误集(486个示例)和合成烟雾测试集(349个示例)。每个示例包含错误的哈萨克语文本、纠正后的参考文本、错误类型标签和数据来源。数据集主要用于评估和比较不同模型在哈萨克语语法错误纠正任务上的性能,提供了详细的评估指标和排行榜。
---
语言:哈萨克语(Kazakh)
许可证:CC BY 4.0
标签:
- 哈萨克语
- GEC(语法错误纠正,Grammatical Error Correction)
- 语法错误纠正
- 基准测试
任务类别:
- 翻译
---
# sozkz-corpus-gec-benchmark-kk-v1
这是哈萨克语语法错误纠正基准数据集,请使用`test`划分(共200个样本)进行官方性能对比评测。
## 数据集划分
| 划分 | 样本数 | 来源说明 |
|-------|----------|--------|
| `test` | 200 | 标准测试集 — 用于官方Word F0.5基准评测 |
| `synthetic` | 401 | GPT-4o生成的合成错误样本 |
| `organic_social` | 486 | 来自社交媒体的真实错误样本(经GPT-4o标注) |
| `synthetic_smoke` | 349 | 合成冒烟测试样本 |
## 数据结构
- `input`:包含错误的哈萨克语文本
- `target`:修正后的标准参考文本
- `error_tag`:错误类型(如`orthography/spelling`正字法/拼写、`morphosyntax/agreement`形态句法/一致关系等)
- `source`:数据来源
## 排行榜 — 200样本标准测试集(Word F0.5指标)
| 模型 | 精确匹配率 | 字符错误率(CER,值越低越好) | 词精确率 | 词召回率 | 词F0.5分数(值越高越好) | 恒等率 |
|-------|-------------|--------|-----------|----------|-------------|---------|
| [sozkz-fix-mt5-50m-kk-gec-v1](https://huggingface.co/saken-tukenov/sozkz-fix-mt5-50m-kk-gec-v1) | **62.0%** | **0.0802** | **0.494** | **0.661** | **0.520** | **100%** |
| [sozkz-nllb-1b-kk-gec-v1](https://huggingface.co/stukenov/sozkz-nllb-1b-kk-gec-v1) | 44.0% | 0.2447 | 0.233 | 0.550 | 0.264 | 61.5% |
| [sozkz-nllb-1b-kk-pretrain-v1](https://huggingface.co/stukenov/sozkz-nllb-1b-kk-pretrain-v1) | 43.5% | 0.2643 | 0.206 | 0.543 | 0.235 | 61.5% |
## 排行榜 — 100样本自定义测试集(精确匹配率%)
该评测为模型未搭载预处理/后处理流水线的纯推理结果。错误分类如下:30个拼写错误样本、20个语法错误样本、15个标点错误样本、20个混合错误样本、15个无错误恒等样本。
| 模型 | 总准确率 | 拼写/30 | 语法/20 | 标点/15 | 混合/20 | 恒等/15 |
|-------|-------|---------|----------|----------|---------|---------|
| [sozkz-core-llama-600m-kk-gec-v1](https://huggingface.co/stukenov/sozkz-core-llama-600m-kk-gec-v1) | **47%** | 15 | 12 | 3 | 2 | 15/15 |
| [sozkz-fix-qwen-500m-kk-gec-v3](https://huggingface.co/stukenov/sozkz-fix-qwen-500m-kk-gec-v3) | 38% | 0 | 16 | 9 | 0 | 13/15 |
| [sozkz-core-llama-300m-kk-gec-v4](https://huggingface.co/stukenov/sozkz-core-llama-300m-kk-gec-v4) | 37% | 9 | 6 | 4 | 3 | 15/15 |
| [sozkz-fix-qwen-500m-kk-gec-v1](https://huggingface.co/stukenov/sozkz-fix-qwen-500m-kk-gec-v1) | 35% | 0 | 12 | 8 | 0 | 15/15 |
| [sozkz-fix-qwen-500m-kk-gec-v2](https://huggingface.co/stukenov/sozkz-fix-qwen-500m-kk-gec-v2) | 30% | 0 | 11 | 7 | 0 | 12/15 |
| [sozkz-core-llama-1b-kk-gec-v1](https://huggingface.co/stukenov/sozkz-core-llama-1b-kk-gec-v1) | 16% | 2 | 6 | 1 | 0 | 7/15 |
| [sozkz-fix-qwen-500m-kk-gec-v4](https://huggingface.co/stukenov/sozkz-fix-qwen-500m-kk-gec-v4) | 5% | 0 | 1 | 4 | 0 | 0/15 |
| [sozkz-fix-mt5b-kk-gec-run13-v1](https://huggingface.co/stukenov/sozkz-fix-mt5b-kk-gec-run13-v1) | 5% | 0 | 2 | 0 | 0 | 3/15 |
| [sozkz-nllb-1b-kk-gec-v1](https://huggingface.co/stukenov/sozkz-nllb-1b-kk-gec-v1) | 1% | 0 | 1 | 0 | 0 | 0/15 |
| [sozkz-nllb-1b-kk-pretrain-v1](https://huggingface.co/stukenov/sozkz-nllb-1b-kk-pretrain-v1) | 1% | 0 | 1 | 0 | 0 | 0/15 |
| sozkz-core-llama-300m v1/v2a/v2b/v3 | 0–1% | 0 | 0–1 | 0 | 0 | 0–1 |
| sozkz-fix-mt5-50m-kk-gec-v1 | 0% | 0 | 0 | 0 | 0 | 0/15 |
## 使用方法
python
from datasets import load_dataset
ds = load_dataset("stukenov/sozkz-corpus-gec-benchmark-kk-v1")
test = ds["test"]
print(test[0])
# 输出示例:{'input': '待修正的哈萨克语文本', 'target': '修正后的标准文本', 'error_tag': '错误类型', 'source': '数据来源'}
提供机构:
stukenov



