RAGTurk
收藏arXiv2026-02-03 更新2026-02-05 收录
下载链接:
https://github.com/metunlp/ragturk
下载链接
链接失效反馈官方服务:
资源简介:
RAGTurk是由土耳其Roketsan公司、中东技术大学等机构联合构建的首个土耳其语检索增强生成(RAG)基准数据集,包含来自土耳其Wikipedia和CulturaX的11,196篇文档(4,891篇百科文章和6,305篇网页)。数据集通过LLM生成20,459个问题-答案对,涵盖事实性(11,718条)和解释性(8,741条)两类问题,平均每文档生成1.83个问题。数据经过严格的URL过滤和内容质量筛选,采用头部感知分块策略(58,289个文本块)和统一主题分类(10个类别),旨在解决土耳其语等形态复杂语言在RAG管道中的检索与生成评估难题,为跨语言NLP研究提供标准化测试平台。
RAGTurk is the first Turkish-language Retrieval-Augmented Generation (RAG) benchmark dataset co-developed by Turkish firm Roketsan, Middle East Technical University, and other institutions. It contains 11,196 documents sourced from Turkish Wikipedia and CulturaX, comprising 4,891 encyclopedia articles and 6,305 web pages. A total of 20,459 question-answer pairs are generated via LLMs, covering two categories of questions: factual (11,718 entries) and explanatory (8,741 entries), with an average of 1.83 questions generated per document. The dataset has undergone strict URL filtering and content quality screening, adopting a head-aware chunking strategy resulting in 58,289 text chunks, as well as unified topic classification across 10 categories. It aims to address the challenges of retrieval and generation evaluation for morphologically complex languages such as Turkish in RAG pipelines, providing a standardized testbed for cross-linguistic NLP research.
提供机构:
Roketsan公司·人工智能技术部门; 都灵理工大学; 中东技术大学·计算机工程系; TOBB经济与技术大学·人工智能工程系
创建时间:
2026-02-03
原始信息汇总
RAGTurk 数据集概述
数据集基本信息
- 数据集名称: RAGTurk
- 核心研究内容: 针对土耳其语的检索增强生成(RAG)系统最佳实践研究。
- 论文状态: 已被 EACL 2026 SIGTURK 接受,最终版本将发布在会议论文集中。
- 论文链接: https://arxiv.org/abs/2602.03652
- 数据集访问地址: https://huggingface.co/datasets/metunlp/ragturk
研究背景与动机
- 检索增强生成(RAG)管道被广泛用于减少幻觉并提高事实准确性。
- 现有的 RAG 基准和设计指南主要围绕英语。
- 土耳其语因其黏着语形态、分词不匹配以及查询-文档词汇差异而带来独特挑战。
- 本研究旨在确定哪些 RAG 组件对土耳其语至关重要,哪些引入了不必要的复杂性。
主要贡献
-
土耳其语 RAG 基准数据集
- 数据源:土耳其语维基百科和 CulturaX。
- 内容:与检索到的文本块对齐的问答对。
- 目的:支持土耳其语 RAG 系统的可复现评估。
-
端到端 RAG 管道分析
- 对完整 RAG 管道进行系统性评估。
- 不涉及特定任务的监督式微调。
-
最佳实践建议
- 识别高性能且成本效益高的配置。
- 证明过度堆叠生成模块会降低性能。
-
语言特定洞察
- 展示土耳其语形态如何影响检索和生成。
- 突显以英语为中心的 RAG 启发式方法的局限性。
评估的 RAG 管道组件
- 查询转换
- 密集检索
- 重排序(双编码器 vs. 交叉编码器)
- 上下文增强
- 答案融合
- 答案精炼
- 后处理 所有组件均进行了独立和组合评估。
关键发现
- HyDE(假设文档嵌入) 以较高成本实现了最高准确率(约85%)。
- 交叉编码器重排序 + 上下文增强 提供了近乎最优的权衡(约84.6%)。
- 过多的生成式精炼会损害土耳其语的性能。
- 检索和重排序主导了整体 RAG 质量。
数据集特点与差异
| 方面 | 先前 RAG 工作 | RAGTurk |
|---|---|---|
| 语言重点 | 英语 | 土耳其语 |
| 管道覆盖范围 | 部分 | 完整 |
| 成本分析 | 罕见 | 明确 |
| 形态学意识 | 有限 | 核心 |
应用场景
- 土耳其语问答和助手系统
- 多语言 RAG 基准测试
- 低资源语言 RAG 研究
- 成本敏感的 RAG 系统设计
局限性
- 仅专注于土耳其语。
- 仅包含开放域数据。
- 未进行监督式微调。
结论
RAGTurk 首次对土耳其语的 RAG 管道设计选择进行了系统性评估。结果表明,有效的 RAG 系统必须适应语言结构,而不仅仅是模型能力。
引用格式
bibtex @inproceedings{ragturk2026, title={RAGTurk: Best Practices for Retrieval-Augmented Generation in Turkish}, author={Kose, Suha Kagan and Baytekin, Mehmet Can and Aktas, Burak and Gorur, Bilge Kaan and Munis, Evren Ayberk and Yilmaz, Deniz and Kartal, Muhammed Yusuf and Toraman, Cagri}, booktitle={Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics (EACL)}, note={Accepted to SIGTURK. arXiv:2602.03652}, year={2026} }
搜集汇总
数据集介绍

构建方式
在构建土耳其语检索增强生成(RAG)基准数据集RAGTurk时,研究团队采用了严谨的双源数据采集策略,以确保数据覆盖的广泛性与代表性。数据集整合了土耳其语维基百科的百科全书式文本与源自CulturaX的多样化网络内容,通过基于大型语言模型的两阶段过滤流程,剔除了低质量或非信息性文档,保留了内容充实且可回答的文本。随后,采用头部感知的分块方法,将文档划分为具有上下文信息的段落单元,并结合自动化主题分类与问题-答案对生成技术,最终构建了一个包含超过两万条标注样本的高质量评测资源。
特点
RAGTurk数据集的核心特点在于其针对土耳其语形态丰富性所设计的评测深度与系统性。数据集不仅涵盖了事实性与解释性两种问题类型,以全面评估模型的检索与推理能力,更通过整合维基百科的结构化长文本与网络语料的非正式短文本,模拟了真实世界检索场景的复杂性。其独特的价值在于提供了端到端RAG流程中七个关键阶段的基准评测能力,包括查询转换、重排序与答案精炼等,为探究模块化选择在土耳其语这一资源适中语言中的交互影响提供了首个系统性实验平台。
使用方法
该数据集旨在为土耳其语检索增强生成系统的研究与开发提供标准化的评测基准。使用者可通过加载其提供的文档语料库、问题-答案对及关联证据段落,系统性地评估不同RAG管道配置的检索效能与生成质量。具体而言,研究者可基于数据集设计实验,对比分析各类查询转换、候选重排序、上下文增强等模块在土耳其语环境下的表现,并利用其提供的遗传算法框架探索帕累托最优的配置组合。数据集配套的代码与配置文件确保了实验的可复现性,助力于推动形态丰富语言RAG技术的优化与创新。
背景与挑战
背景概述
RAGTurk数据集由土耳其Roketsan公司人工智能技术部门、中东技术大学及都灵理工大学等机构的研究团队于2026年创建,旨在填补检索增强生成技术在形态丰富语言领域的评估空白。该数据集基于土耳其语维基百科和CulturaX语料库构建,包含超过两万个高质量问答对及其对应证据段落,系统性地涵盖了从查询转换到答案精炼的完整RAG流程。作为首个针对土耳其语的端到端RAG基准,它不仅推动了非英语语境下大语言模型与外部知识融合的研究,也为形态复杂语言的检索生成系统提供了关键的评估框架与优化指南。
当前挑战
RAGTurk数据集致力于解决土耳其语检索增强生成系统在事实性与可验证性方面的核心挑战,其构建过程面临多重困难。在领域层面,土耳其语丰富的形态变化、灵活语序及多源文本差异导致检索与语义对齐难度显著高于英语基准,传统模块化方法易因形态线索失真而性能退化。构建过程中,研究团队需从异构网络文档中筛选信息密度高、可应答的文本,并设计兼顾事实性与解释性的问答对生成机制,同时确保证据段落的精确标注与跨组件评估协议的一致性,这些都对数据质量与评估效度提出了严峻考验。
常用场景
经典使用场景
在土耳其语自然语言处理领域,RAGTurk数据集为评估检索增强生成系统的端到端性能提供了标准化基准。该数据集整合了土耳其语维基百科的百科性文本与源自CulturaX的多样化网络内容,构建了涵盖事实性与解释性问题的问答对及对应证据段落。研究者利用此数据集系统性地评估RAG流程的七个核心阶段——从查询转换、候选重排序到答案精炼——无需进行任务特定的微调,从而为土耳其语这类形态丰富语言提供了首个全面的管道级评估框架。
解决学术问题
RAGTurk数据集主要解决了针对非英语语言,尤其是形态丰富的土耳其语,缺乏系统性RAG评估基准的学术空白。传统RAG研究多集中于英语,其设计指南难以直接迁移至土耳其语所面临的形态复杂、词序灵活及语料变异等独特挑战。该数据集通过提供基于真实语料的、经过严格质量过滤的问答对与证据块,使得研究者能够量化分析不同RAG组件(如HyDE查询扩展、交叉编码器重排序等)在土耳其语环境下的交互效应与性能边界,从而推动针对特定语言特性的RAG方法论创新。
衍生相关工作
RAGTurk数据集的发布催生了一系列聚焦于土耳其语RAG优化的后续研究。例如,基于其评估框架,研究者进一步探索了针对土耳其语形态特性的检索器优化(如词干感知的稀疏检索)、文化背景敏感的问答生成,以及基于图结构的检索增强方法。该数据集也为土耳其语大语言模型评测基准(如TurkBench)中纳入RAG评估模块提供了数据基础。同时,其构建方法论启发了针对其他形态丰富语言(如芬兰语、匈牙利语)的类似基准创建工作,推动了多语言RAG研究的均衡发展。
以上内容由遇见数据集搜集并总结生成



