Evidence-based Explanation Dataset

github2023-12-24 更新2024-05-31 收录

下载链接：

https://github.com/megagonlabs/ebe-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了基于证据的解释数据集，这是用于解释推荐酒店模糊请求证据的最大数据集（37,280条评论）。假设酒店评论的标题通常对应于模糊请求，该数据集包括带有模糊请求、请求证据句子和基于证据的推荐句子的酒店评论。所有酒店评论数据均从日本的旅游信息网站Jalan提取。

We provide an evidence-based explanation dataset, which is the largest dataset (37,280 reviews) for explaining evidence of ambiguous hotel recommendation requests. Assuming that the titles of hotel reviews generally correspond to ambiguous requests, this dataset includes hotel reviews with ambiguous requests, evidence sentences for the requests, and evidence-based recommendation sentences. All hotel review data were extracted from Jalan, a Japanese travel information website.

创建时间：

2020-10-14

原始信息汇总

数据集概述

数据集名称

Evidence-based Explanation Dataset

数据集大小

包含37,280条酒店评论。

数据来源

所有酒店评论数据均从日本的旅行信息网站Jalan提取。

数据内容

数据集包括酒店评论，其中包含针对模糊请求的注释、支持这些请求的证据句以及基于证据的推荐句。

数据结构

org/evidence-based_explanation.json.gz：整个证据解释数据集。
evidence_identification_dataset/* 和 evidence_explanation_dataset/*：用于证据识别和证据解释的评估数据集。

数据字段

index (int)：示例ID。
title (str)：评论标题（包含模糊请求，如“Good view”）。
review (str)：评论文本。
sent (str)：每个评论句子。
relevance_score (float)：句子与标题相关性的评分（0.0~1.0）。
evidence_score (float)：句子包含标题证据的评分（0.0~1.0），仅当relevance_score为0.6或更高时存在。
recommendation_sents (list)：推荐句子，仅当evidence_score为0.6或更高时存在。
recommendation_labels (dict)：标签及其数量，表示工作人员重写的推荐句子、认为证据（或标题）是负面的或表示没有证据用于解释。

评估数据集

证据识别数据集：
- 数据大小：
  - 训练集：29,826条评论，148,671个句子，20,709个正例（13.9%）。
  - 开发集：3,726条评论，18,549个句子，2,606个正例（14.0%）。
  - 测试集：3,728条评论，18,823个句子，2,489个正例（13.2%）。
  - 总计：37,280条评论，186,043个句子，25,804个正例（13.9%）。
证据解释数据集：
- 数据大小：训练 : 开发 : 测试 = 81,980 : 2,332 : 2,191。
- 数据格式：(train|dev|test).src包含title [SEP] evidence sentence，(train|dev|test).trg包含recommendation sentence。

许可证

本数据集遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)许可证。

搜集汇总

数据集介绍

构建方式

Evidence-based Explanation Dataset的构建基于日本旅游信息网站Jalan的酒店评论数据。研究者假设评论标题通常对应于模糊的请求，并从评论文本中提取这些请求的证据句子。通过人工标注，将模糊请求与评论中的证据句子进行匹配，并将证据句子改写为推荐句子。数据标注过程由多名标注者完成，确保了数据的多样性和可靠性。

特点

该数据集包含37,280条酒店评论，涵盖了模糊请求、证据句子和基于证据的推荐句子。每条评论的句子都经过标注，标注内容包括与标题的相关性评分、证据评分以及推荐句子。数据集还提供了详细的标注指南和示例，便于研究者理解和使用。此外，数据集还包含用于评估证据识别和证据解释任务的子集，进一步增强了其研究价值。

使用方法

使用该数据集时，研究者可以通过加载压缩的JSON文件获取完整的评论数据。数据集中的每条评论都包含索引、标题、评论文本、句子及其相关性和证据评分。对于证据评分高于0.6的句子，还提供了改写后的推荐句子。研究者可以利用这些数据进行自然语言处理任务，如证据识别、推荐句子生成等。此外，数据集还提供了用于训练、开发和测试的TSV文件，便于进行模型训练和评估。

背景与挑战

背景概述

Evidence-based Explanation Dataset 是由日本旅行信息网站Jalan的酒店评论数据构建而成，旨在为模糊请求提供基于证据的解释。该数据集由Shin Kanouchi等研究人员于2020年提出，并在AACL-IJCNLP2020和NLP2020会议上发表相关论文。数据集包含37,280条评论，涵盖了模糊请求、证据句子以及基于证据的推荐句子。通过从评论标题中提取模糊请求，并在评论文本中标注相关证据句子，最终将其改写为推荐句子。该数据集为自然语言处理领域中的解释性推荐系统提供了重要的研究基础，推动了基于证据的推荐算法的发展。

当前挑战

Evidence-based Explanation Dataset 在构建和应用过程中面临多重挑战。首先，模糊请求的识别与证据句子的标注需要高度依赖人工标注，标注的一致性和准确性直接影响数据质量。其次，评论文本的多样性和复杂性使得证据句子的提取和改写变得困难，尤其是在处理多义性和上下文依赖时。此外，推荐句子的生成要求不仅基于证据，还需符合自然语言表达的流畅性和逻辑性，这对模型的生成能力提出了更高要求。最后，数据集的规模虽然较大，但在实际应用中，如何有效利用这些数据进行模型训练和评估，仍然是一个亟待解决的问题。

常用场景

经典使用场景

在自然语言处理领域，Evidence-based Explanation Dataset 被广泛应用于基于证据的推荐系统研究。该数据集通过酒店评论中的模糊请求与相关证据句子的标注，为研究者提供了一个理想的实验平台，用于探索如何从用户评论中提取有效信息并生成解释性推荐。其经典使用场景包括训练和评估模型在识别证据句子、生成推荐句子等方面的表现，尤其是在处理模糊请求时，模型的表现能够通过该数据集得到有效验证。

衍生相关工作

基于 Evidence-based Explanation Dataset，许多经典研究工作得以展开。例如，Kanouchi 等人提出的基于证据的推荐生成模型，通过该数据集验证了其方法的有效性。此外，该数据集还催生了多项关于模糊请求处理、证据句子识别和推荐句子生成的研究，推动了自然语言处理领域在解释性推荐系统方向的发展。这些工作不仅丰富了相关领域的理论框架，还为实际应用提供了可行的技术方案。

数据集最近研究