five

TajikNLPWorld/tajik-farsi-transliteration-benchmark

收藏
Hugging Face2026-04-09 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/TajikNLPWorld/tajik-farsi-transliteration-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit language: - tg - fa tags: - transliteration - low-resource-nlp - tajik - farsi - benchmark - sequence-to-sequence task_categories: - text2text-generation dataset_info: - config_name: default data_files: - split: train path: results/aggregated_metrics.csv --- # 🇹🇯🇮🇷 Tajik-Farsi Transliteration Benchmark Официальный бенчмарк машинной транслитерации между таджикским (кириллица) и фарси (персо-арабская графика). Результаты получены на 40k параллельных предложениях с оценкой по 3 случайным сидам, bootstrap 95% CI и парными статистическими тестами. ## 📊 Ключевые результаты (Top-5) | Модель | Направление | chrF++ | BLEU | CER | |--------|-------------|--------|------|-----| | byt5-small | Tj→Fa | **87.35** ± 0.10 | 73.58 | 0.054 | | byt5-small | Fa→Tj | **80.07** ± 0.23 | 56.61 | 0.090 | | G2PTransformer | Tj→Fa | **72.26** ± 0.41 | 36.46 | 0.415 | | mbart-large-50-many-to-many-mmt | Fa→Tj | **70.11** ± 0.44 | 45.39 | 0.238 | | LSTM | Tj→Fa | **65.10** ± 5.51 | 38.52 | 0.137 | *Примечание: ByT5-small демонстрирует наивысшую стабильность (σ < 0.25). G2P-Transformer превосходит mBART/mT5 в направлении Tj→Fa при ~10× меньшем числе параметров.* ## 📁 Структура репозитория ``` 📦 tajik-farsi-transliteration-benchmark/ ├── 📄 README.md ← Этот файл ├── 📊 results/ │ ├── aggregated_metrics.csv ← Сводная таблица метрик │ ├── statistical_report.json ← p-значения, ранги, CI │ └── inference_samples.json ← Примеры предсказаний └── 📈 plots/ ├── pareto_frontier.png ← Качество vs. время обучения └── interactive_report.html ← HTML-отчёт с таблицами ``` ## 🛠 Как использовать результаты ```python import pandas as pd from datasets import load_dataset # Загрузить метрики ds = load_dataset("TajikNLPWorld/tajik-farsi-transliteration-benchmark", split="train") df = ds.to_pandas() print(df.sort_values("chrF++_mean", ascending=False).head()) ``` ## 📖 Citation ```bibtex @misc{tajikfarsi_benchmark_2026, author = {[Ваше Имя] и соавторы}, title = {Tajik-Farsi Transliteration Benchmark}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/TajikNLPWorld/tajik-farsi-transliteration-benchmark} } ``` ## ⚖️ License MIT License. Код и данные открыты для исследовательского и коммерческого использования.
提供机构:
TajikNLPWorld
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作