TajikNLPWorld/tajik-farsi-transliteration-benchmark
收藏Hugging Face2026-04-09 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/TajikNLPWorld/tajik-farsi-transliteration-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
language:
- tg
- fa
tags:
- transliteration
- low-resource-nlp
- tajik
- farsi
- benchmark
- sequence-to-sequence
task_categories:
- text2text-generation
dataset_info:
- config_name: default
data_files:
- split: train
path: results/aggregated_metrics.csv
---
# 🇹🇯🇮🇷 Tajik-Farsi Transliteration Benchmark
Официальный бенчмарк машинной транслитерации между таджикским (кириллица) и фарси (персо-арабская графика).
Результаты получены на 40k параллельных предложениях с оценкой по 3 случайным сидам, bootstrap 95% CI и парными статистическими тестами.
## 📊 Ключевые результаты (Top-5)
| Модель | Направление | chrF++ | BLEU | CER |
|--------|-------------|--------|------|-----|
| byt5-small | Tj→Fa | **87.35** ± 0.10 | 73.58 | 0.054 |
| byt5-small | Fa→Tj | **80.07** ± 0.23 | 56.61 | 0.090 |
| G2PTransformer | Tj→Fa | **72.26** ± 0.41 | 36.46 | 0.415 |
| mbart-large-50-many-to-many-mmt | Fa→Tj | **70.11** ± 0.44 | 45.39 | 0.238 |
| LSTM | Tj→Fa | **65.10** ± 5.51 | 38.52 | 0.137 |
*Примечание: ByT5-small демонстрирует наивысшую стабильность (σ < 0.25). G2P-Transformer превосходит mBART/mT5 в направлении Tj→Fa при ~10× меньшем числе параметров.*
## 📁 Структура репозитория
```
📦 tajik-farsi-transliteration-benchmark/
├── 📄 README.md ← Этот файл
├── 📊 results/
│ ├── aggregated_metrics.csv ← Сводная таблица метрик
│ ├── statistical_report.json ← p-значения, ранги, CI
│ └── inference_samples.json ← Примеры предсказаний
└── 📈 plots/
├── pareto_frontier.png ← Качество vs. время обучения
└── interactive_report.html ← HTML-отчёт с таблицами
```
## 🛠 Как использовать результаты
```python
import pandas as pd
from datasets import load_dataset
# Загрузить метрики
ds = load_dataset("TajikNLPWorld/tajik-farsi-transliteration-benchmark", split="train")
df = ds.to_pandas()
print(df.sort_values("chrF++_mean", ascending=False).head())
```
## 📖 Citation
```bibtex
@misc{tajikfarsi_benchmark_2026,
author = {[Ваше Имя] и соавторы},
title = {Tajik-Farsi Transliteration Benchmark},
year = {2026},
publisher = {Hugging Face},
url = {https://huggingface.co/datasets/TajikNLPWorld/tajik-farsi-transliteration-benchmark}
}
```
## ⚖️ License
MIT License. Код и данные открыты для исследовательского и коммерческого использования.
提供机构:
TajikNLPWorld



