Turkish-Reading-Comprehension-Question-Answering-Dataset

github2024-05-18 更新2024-05-31 收录

下载链接：

https://github.com/okanvk/Turkish-Reading-Comprehension-Question-Answering-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为了支持土耳其语阅读理解和问答系统的研究而创建的。数据集包含了基于奥斯曼历史的6234个问题和答案，以JSON格式存储，旨在为模型训练提供合适的资源。

This dataset was created to support research on Turkish reading comprehension and question-answering systems. It contains 6,234 questions and answers based on Ottoman history, stored in JSON format, and is designed to provide suitable resources for model training.

创建时间：

2020-07-02

原始信息汇总

数据集概述

数据集名称

名称: ENELPİ - Soru Cevap Sistemi

数据集内容

主题: 数据集内容围绕Osmanlı Tarihi（奥斯曼历史）构建，包含问题与答案对。
数据结构: 数据以JSON格式存储，每个条目包含标题、段落、问题和答案。
数据量:
- 训练集: 756个标题，2400个段落，14224个问题-答案对。
- 测试集: 85个标题，301个段落，1330个问题-答案对。

数据集用途

目的: 用于训练和测试基于BERT和ELECTRA算法的问答系统模型。

数据集特点

语言: 数据集使用土耳其语。
算法应用: 数据集用于训练BERT和ELECTRA模型，以实现对自然语言问题的自动回答。

模型训练细节

BERT模型参数:
- epoch: 3或5
- max_seq_length: 256, 384, 512
- learning_rate: 3e-5
- per_gpu_train_batch_size: 16
ELECTRA模型参数:
- epoch: 3或5
- max_seq_length: 384, 512
- per_gpu_train_batch_size: 16

模型性能

评估指标: F1分数和精确匹配分数。
结果:
- ELECTRA模型: F1分数范围为80.11%至81.55%，精确匹配分数范围为60.61%至63.08%。
- BERT模型: F1分数范围为79.19%至81.19%，精确匹配分数范围为59.83%至62.64%。
- ALBERT模型: F1分数为69.91%，精确匹配分数为48.91%。

数据集应用

应用场景: 通过构建的问答系统，用户可以输入文本和问题，系统将提供自动回答。

数据集引用

引用格式: F. Soygazi, O. Çiftçi, U. Kök and S. Cengiz, "THQuAD: Turkish Historic Question Answering Dataset for Reading Comprehension," 2021 6th International Conference on Computer Science and Engineering (UBMK), 2021, pp. 215-220, doi: 10.1109/UBMK52708.2021.9559013.

搜集汇总

数据集介绍

构建方式

该数据集的构建基于土耳其语阅读理解问答任务，旨在为自然语言处理领域的研究提供高质量的土耳其语数据。研究团队从奥斯曼历史主题中提取了6234个问答对，确保了数据的连贯性和主题一致性。这些数据经过精心整理，并以JSON格式存储，便于后续的模型训练和评估。

使用方法

该数据集可用于训练和评估基于BERT和ELECTRA等先进自然语言处理模型的土耳其语问答系统。用户可以通过加载JSON格式的数据文件，提取问答对进行模型训练。此外，研究团队还提供了预训练的模型和代码，用户可以直接使用这些资源进行进一步的实验和开发。

背景与挑战

背景概述

Turkish-Reading-Comprehension-Question-Answering-Dataset（TRCQAD）是由Adnan Menderes Üniversitesi Bilgisayar Mühendisliği Bölümü的Okan Çiftçi、Uğurcan Kök和Filiz Gözet于2020年创建的。该数据集专注于土耳其语的阅读理解与问答任务，旨在填补土耳其语在自然语言处理（NLP）领域中的空白。通过使用BERT和ELECTRA等先进算法，研究团队构建了一个包含6234个问答对的语料库，主要围绕奥斯曼历史主题。该数据集的创建不仅为土耳其语NLP研究提供了宝贵的资源，还为全球NLP社区提供了多语言支持的范例。

当前挑战

TRCQAD在构建过程中面临了多重挑战。首先，土耳其语作为一种资源相对稀缺的语言，缺乏大规模的问答数据集，这使得数据的收集与标注成为一项艰巨的任务。其次，尽管BERT和ELECTRA等算法在其他语言中表现出色，但它们在土耳其语中的适应性仍需进一步验证，尤其是在处理复杂的语法结构和词汇多样性时。此外，数据集的多样性和覆盖范围也是一个挑战，尤其是在历史主题的问答中，确保问题的多样性和答案的准确性至关重要。最后，模型的训练和优化过程中，如何平衡计算资源与模型性能也是一个需要解决的问题。

常用场景

经典使用场景

Turkish-Reading-Comprehension-Question-Answering-Dataset（TRCQAD）主要用于土耳其语阅读理解任务中的问答系统开发。该数据集通过提供大量的土耳其语问答对，帮助研究人员和开发者训练和评估基于BERT和ELECTRA等先进自然语言处理模型的问答系统。这些模型能够从给定的文本段落中自动提取答案，适用于教育、历史研究和信息检索等多个领域。

解决学术问题

TRCQAD数据集解决了土耳其语自然语言处理领域中缺乏高质量问答数据集的问题。通过提供6234个基于历史主题的问答对，该数据集为研究人员提供了一个标准化的基准，用于评估和比较不同问答模型的性能。这不仅推动了土耳其语NLP技术的发展，还为跨语言问答系统的研究提供了宝贵的资源。

实际应用

TRCQAD数据集在实际应用中具有广泛的前景，特别是在教育、历史研究和信息检索领域。例如，它可以用于开发智能辅导系统，帮助学生通过问答形式更好地理解历史文本；在历史研究中，研究人员可以利用该数据集快速获取特定历史事件的详细信息；在信息检索系统中，用户可以通过自然语言提问，快速获取相关文档中的答案。

数据集最近研究