facebook/wiki_movies

Name: facebook/wiki_movies
Creator: facebook
Published: 2024-01-18 11:18:06
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/facebook/wiki_movies

下载链接

链接失效反馈

官方服务：

资源简介：

WikiMovies数据集包含大约100k个基于开放电影数据库（OMDb）的模板化问题和答案，用于问答任务。数据集的结构包括问题-答案对，数据分为训练集、测试集和验证集。数据集的创建目的是为机器学习技术提供足够的训练示例，并便于分析不同知识表示的性能。数据集的文本为英文。

The WikiMovies dataset contains approximately 100k templated questions and answers based on the Open Movie Database (OMDb) for question answering tasks. It consists of question-answer pairs, and the data is split into training, test, and validation sets. The dataset was created to provide sufficient training examples for machine learning techniques and to facilitate the analysis of performance across different knowledge representations. All text in the dataset is in English.

提供机构：

facebook

原始信息汇总

WikiMovies 数据集概述

数据集描述

数据集摘要

WikiMovies 数据集包含约 100k 个（模板化）问题，涉及 75k 个实体，基于开放电影数据库（OMDb）中的问题和答案。它是电影对话数据集的问答部分。

支持的任务和排行榜

问答（Question Answering）

语言

数据集中的文本为英语。

数据集结构

数据实例

原始数据由以制表符分隔的问题和答案对组成。以下是三个示例：

1 what does Grégoire Colin appear in? Before the Rain 1 Joe Thomas appears in which movies? The Inbetweeners Movie, The Inbetweeners 2 1 what films did Michelle Trachtenberg star in? Inspector Gadget, Black Christmas, Ice Princess, Harriet the Spy, The Scribbler

每行开头的 1 用途不明，但在 Dataset 对象中已被移除。

数据字段

以下是 Datasets 摄取的原始数据示例： json { "answer": "Before the Rain", "question": "what does Grégoire Colin appear in?" }

answer：包含对应问题的答案的字符串。
question：包含相关问题的字符串。

数据分割

数据分为训练集、测试集和验证集。分割大小如下：

文件名	样本数量
train.txt	96185
dev.txt	10000
test.txt	9952

数据集创建

策划理由

WikiMovies 数据集的构建目标包括：（i）机器学习技术应有足够的训练示例进行学习；（ii）可以轻松分析不同知识表示的性能，并按问题类型分解结果。数据集可从 http://fb.ai/babi 下载。

许可证信息

许可证：CC BY 3.0

引用信息

bibtex @misc{miller2016keyvalue, title={Key-Value Memory Networks for Directly Reading Documents}, author={Alexander Miller and Adam Fisch and Jesse Dodge and Amir-Hossein Karimi and Antoine Bordes and Jason Weston}, year={2016}, eprint={1606.03126}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

WikiMovies数据集的构建基于开放电影数据库（OMDb），通过众包方式生成了约10万条模板化的问题及其对应的答案。该数据集旨在为机器学习技术提供丰富的训练样本，并便于分析不同知识表示方法的性能。数据集的构建目标包括确保机器学习模型有足够的训练数据，并能够通过问题类型对结果进行详细分析。

使用方法

WikiMovies数据集可用于封闭域问答任务的训练和评估。用户可以通过加载数据集的训练、测试和验证集来进行模型训练和性能测试。数据集的结构化格式使得用户能够直接提取问题和答案，便于进行问答系统的开发与优化。

背景与挑战

背景概述

WikiMovies数据集由Facebook研究院于2016年创建，旨在为机器学习技术提供丰富的训练样本，并促进对不同知识表示方法的性能分析。该数据集基于开放电影数据库（OMDb），包含约10万条问题与答案对，涵盖7.5万个实体。其核心研究问题在于如何通过问答系统直接从文档中提取信息，从而推动封闭领域问答（closed-domain QA）技术的发展。WikiMovies的发布不仅为自然语言处理领域的研究提供了宝贵的资源，还为电影相关信息的自动化检索与分析奠定了基础。

当前挑战

WikiMovies数据集在构建过程中面临多项挑战。首先，数据集的规模和多样性要求高效的标注和处理方法，以确保问题与答案对的质量和一致性。其次，封闭领域问答任务的复杂性使得模型需要具备高度的领域特定知识，这对模型的训练和泛化能力提出了较高要求。此外，数据集中可能存在的偏见和噪声问题，如不准确或过时的信息，需要通过精细的数据清洗和校验来解决。这些挑战共同构成了WikiMovies数据集在实际应用中的主要障碍。

常用场景

经典使用场景

WikiMovies数据集在封闭域问答任务中展现了其经典应用价值。该数据集通过提供大量基于开放电影数据库（OMDb）的问题与答案对，为机器学习模型提供了丰富的训练样本。其主要应用场景包括电影相关信息的自动问答系统，如电影演员参演作品查询、电影标题检索等。这些任务不仅考验模型的知识表示能力，还要求其具备高效的推理机制，从而在实际应用中提供准确且快速的答案。

解决学术问题

WikiMovies数据集在解决封闭域问答领域的学术研究问题中发挥了重要作用。通过提供结构化的问答对，该数据集帮助研究者评估不同知识表示方法的性能，并分析模型在不同类型问题上的表现。这不仅推动了问答系统在特定领域（如电影信息检索）的深入研究，还为开发更通用、更高效的问答模型提供了宝贵的实验数据。

实际应用

在实际应用中，WikiMovies数据集为电影信息检索系统提供了坚实的基础。例如，电影爱好者可以通过问答系统快速获取某位演员的参演作品，或查询某部电影的详细信息。此外，该数据集还可用于构建智能客服系统，帮助用户在电影相关的在线平台上获取所需信息，提升用户体验。其应用不仅限于娱乐领域，还可扩展至教育、文化传播等多个领域。

数据集最近研究