WikiReading

github2024-02-24 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/wiki-reading

下载链接

链接失效反馈

官方服务：

资源简介：

WikiReading数据集包含英语、土耳其语和俄语三个版本，用于大规模语言理解任务。数据集包括训练、验证和测试集，以TFRecord和JSON格式提供，总大小分别为45GB、5GB和3GB。

The WikiReading dataset is available in three languages: English, Turkish, and Russian, designed for large-scale language understanding tasks. The dataset comprises training, validation, and test sets, provided in both TFRecord and JSON formats, with total sizes of 45GB, 5GB, and 3GB respectively.

创建时间：

2016-06-07

原始信息汇总

WikiReading 数据集概述

数据集组成

WikiReading 数据集包含三个语言版本：英语、俄语和土耳其语。每个语言版本均包含训练集、验证集和测试集。

数据集大小

英语：
- 训练集：45GB
- 验证集：5GB
- 测试集：3GB
俄语：
- 训练集：4,259,667 示例
- 验证集：531,412 示例
- 测试集：533,026 示例
土耳其语：
- 训练集：654,705 示例
- 验证集：81,622 示例
- 测试集：82,643 示例

数据格式

数据集以TFRecord或JSON格式存储，每个文件代表数据集的一部分，便于并行读取加速训练和测试。

词汇表

英语：
- document.vocab: 176,978 tokens
- answer.vocab: 10,876 tokens
- raw_answer.vocab: 1,359,244 tokens
- type.vocab: 80 tokens
- character.vocab: 12486 tokens
俄语：
- document.vocab: 965,157 tokens
- answer.vocab: 57,952 tokens
- type.vocab: 56 tokens
- character.vocab: 12,205 tokens
土耳其语：
- document.vocab: 215,294 tokens
- answer.vocab: 11,123 tokens
- type.vocab: 10 tokens
- character.vocab: 6638 tokens

数据集特征

每个实例包含多个特征，如answer_breaks, answer_ids, answer_location等，用于描述答案的结构和位置。

数据下载

英语数据集通过运行get_data.sh下载。
俄语和土耳其语数据集分别通过运行get_ru_data.sh和get_tr_data.sh下载。

搜集汇总

数据集介绍

构建方式

WikiReading数据集的构建基于Wikipedia的丰富信息，旨在为大规模语言理解任务提供支持。该数据集包含英语、土耳其语和俄语三个版本，分别由Hewlett等人和Kenter等人在相关研究中提出。数据集的构建过程包括从Wikipedia中提取文档和答案，并将其转化为TFRecord或JSON格式，以便于机器学习模型的训练和测试。每个数据实例均包含文档、问题和答案的序列化表示，确保了数据的完整性和可用性。

使用方法

使用WikiReading数据集时，用户可以通过运行提供的脚本（如`get_data.sh`、`get_ru_data.sh`和`get_tr_data.sh`）下载所需的数据集。数据集以TFRecord或JSON格式提供，用户可以使用TFRecordReader或JSON解析器读取数据。为了加速训练和测试过程，数据集被分割为多个分片，用户可以根据需要并行读取这些分片。此外，数据集还提供了样本文件，供用户在磁盘空间有限的情况下进行初步实验。

背景与挑战

背景概述

WikiReading数据集由Daniel Hewlett等研究人员于2016年提出，旨在为大规模语言理解任务提供支持。该数据集基于Wikipedia内容，涵盖了英语、土耳其语和俄语三种语言，主要用于机器阅读理解任务。其核心研究问题是通过对Wikipedia文档的深入分析，提取并理解其中的信息，从而回答相关问题。该数据集的发布极大地推动了自然语言处理领域的发展，特别是在跨语言理解和信息提取方面，为后续研究提供了丰富的数据资源。

当前挑战

WikiReading数据集在解决大规模语言理解任务时面临多重挑战。首先，跨语言的数据处理要求模型具备强大的语言适应能力，尤其是在形态学丰富的语言如土耳其语和俄语中，词汇和句法结构的复杂性增加了模型的理解难度。其次，数据集的构建过程中，如何从Wikipedia中准确提取信息并生成高质量的问题-答案对，是一个技术难题。此外，数据集的规模庞大，处理和分析这些数据需要高效的算法和计算资源，这对研究人员的计算能力提出了较高要求。

常用场景

经典使用场景

WikiReading数据集在自然语言处理领域中被广泛用于大规模语言理解任务的研究。该数据集通过提供来自Wikipedia的丰富文本和对应的问答对，为研究者提供了一个理想的平台，用于训练和评估机器阅读理解模型。其经典使用场景包括问答系统、信息抽取和语义理解等任务，特别是在处理多语言和跨语言问题时，WikiReading展现了其独特的优势。

解决学术问题

WikiReading数据集解决了机器阅读理解中的多个关键学术问题。首先，它通过提供大规模的问答对，帮助研究者克服了数据稀缺的挑战，使得模型能够在更丰富的语境下进行训练。其次，该数据集支持多语言处理，为跨语言机器阅读理解提供了宝贵的研究资源。此外，WikiReading还通过引入复杂的问答类型，如列表和段落级别的答案，推动了模型在处理多样化问题类型上的能力提升。

实际应用

在实际应用中，WikiReading数据集被广泛应用于构建智能问答系统和知识图谱的自动填充。例如，基于该数据集训练的模型可以用于自动回答用户提出的问题，或从大量文本中提取关键信息以丰富知识库。此外，WikiReading的多语言特性使其在全球化企业的多语言客服系统中具有重要应用价值，能够有效提升跨语言沟通的效率。

数据集最近研究