Summary-of-Datasets-for-GRAG

github2024-12-04 更新2024-12-06 收录

下载链接：

https://github.com/zirconiumnmlee/Summary-of-Datasets-for-GRAG

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于总结多个论文中使用的数据集的仓库，包括如何安装数据集、如何使用Python读取数据集等内容。它帮助我们熟悉相关数据集的结构，以便进行进一步的科学研究。

This is a repository that summarizes the datasets employed in multiple academic papers, including guidance on dataset installation and reading via Python, among other relevant information. It helps researchers familiarize themselves with the structures of these datasets to support further scientific research.

创建时间：

2024-12-02

原始信息汇总

Summary of Datasets for GRAG

Datasets Summary

Name	Description	Structure	Data Splits
[deepmind
arrativeQA](https://github.com/deepmind/narrativeqa)	NarrativeQA 是一个包含故事(影视剧剧本)和相应问题的英语数据集，旨在测试阅读理解能力，尤其是长文档的阅读理解能力。回答问题依靠summary（人类标注）或者story（原文）。一个文本对应一个问题。	A typical data point consists of a question and answer pair along with a summary/story which can be used to answer the question. Additional information such as the url, word count, wikipedia page, are also provided.	training(32747, saved in 24 parquet files), validation(3461, saved in 3 parquet files), test(10557, saved in 8 parquet files) based on story (i.e. the same story cannot appear in more than one split)
UltraDomain	包含多个领域的数据集，如finance, cs, legal, cooking(all: 20 classes)。每个数据集存储在一个jsonl文件中。存在一个文本(context)对应多个不同问题，即一篇文章可以出现在多个example中。	input(question); context; dataset; label; answers; _id; length	All train set(total: 3933). Example: agriculture(100), art(200). (All information can be seen in READ_UltraDomain.ipynb). Max size: 438(legal), Min size: 100(cs)
qasper	QASPER 是一个用于科学研究论文问答的数据集。它由 1,585 篇自然语言处理论文中的 5,049 个问题组成。每个问题均由 NLP 从业者撰写，他仅阅读相应论文的标题和摘要，并且该问题寻求全文中存在的信息。然后由一组单独的 NLP 从业者回答这些问题，他们还提供答案的支持证据。
hotpotqa	分两个jsonl数据集corpus(5233329篇文章，每一行存储一个title，简介和Wikipedia地址)和queries(97852个问题)；这个数据库没有将文本和问题一一对应。	corpus：dict_keys([_id, title, text, metadata]) queries: dict_keys([_id, text, metadata])
2WikiMultihopQA	分为train，dev，train三个部分，每个部分存储在一个json文件中。训练集中每行的context不是原始文本，是已经提取实体的文本。	_id, type, question, context, supporting_facts, evidences, answer	train(167454) development(12576) test(12576)

搜集汇总

数据集介绍

构建方式

该数据集的构建方式主要通过整合多个领域的公开数据集，如NarrativeQA、UltraDomain、QASPER、HotpotQA和2WikiMultihopQA。这些数据集涵盖了从故事阅读理解到科学论文问答等多个应用场景。每个数据集的结构和内容均经过精心设计，以确保其适用于不同的自然语言处理任务。例如，NarrativeQA通过提供故事和相应的问题来测试长文档的阅读理解能力，而QASPER则专注于科学研究论文的问答任务。数据集的构建过程中，还特别注意了数据的分片和存储方式，如使用parquet文件格式来提高数据读取效率。

使用方法

使用该数据集时，首先需要通过Huggingface平台下载所需的数据集。安装Huggingface的依赖库后，可以使用命令行工具下载特定数据集。每个数据集的结构和内容在README文件中有详细说明，用户可以根据需要选择合适的数据集进行实验。例如，对于NarrativeQA数据集，用户可以利用提供的摘要或故事原文来训练和评估阅读理解模型。对于QASPER数据集，则可以专注于科学论文的问答任务。数据集的使用方法灵活多样，适用于各种自然语言处理任务的研究和开发。

背景与挑战

背景概述

Summary-of-Datasets-for-GRAG 数据集是一个旨在总结多个研究论文中使用的数据集的资源库。该数据集由主要研究人员或机构创建，旨在帮助研究者熟悉相关数据集的结构，以便进行进一步的科学研究。其核心研究问题在于如何有效地组织和呈现不同数据集的元数据，以便于研究者快速理解和使用这些数据集。该数据集的创建时间不详，但其对自然语言处理和机器学习领域的研究具有重要影响力，特别是在数据集管理和使用方面。

当前挑战

Summary-of-Datasets-for-GRAG 数据集面临的挑战主要集中在数据集的多样性和复杂性上。首先，不同数据集的结构和格式各异，如何统一这些数据集的描述和访问方式是一个重大挑战。其次，数据集的更新和维护也是一个持续的问题，随着新数据集的不断加入，如何保持数据集的最新状态和一致性是一个需要解决的问题。此外，数据集的下载和使用过程中可能遇到的依赖问题和技术障碍，也需要通过有效的技术支持和文档更新来解决。

常用场景

经典使用场景

在自然语言处理领域，Summary-of-Datasets-for-GRAG数据集被广泛用于阅读理解任务，特别是针对长文档的理解。例如，NarrativeQA数据集通过提供故事和相应的问题，测试模型对长文本的理解能力。模型需要根据摘要或原文回答问题，这不仅考验了模型的信息提取能力，还评估了其对上下文的综合理解。

解决学术问题

该数据集解决了自然语言处理中长文档阅读理解的关键问题，即如何有效地从大量文本中提取和整合信息。通过提供结构化的数据和多样的问答对，它为研究者提供了一个标准化的测试平台，促进了相关算法的开发和评估。这不仅推动了阅读理解技术的发展，还为其他相关领域的研究提供了宝贵的数据资源。

实际应用

在实际应用中，Summary-of-Datasets-for-GRAG数据集被用于开发智能助手和问答系统，这些系统能够处理复杂的查询并提供准确的答案。例如，在法律、金融和科学研究领域，这些系统可以帮助专业人士快速获取和理解大量文档中的关键信息，从而提高工作效率和决策质量。

数据集最近研究