Frames, Sarcasm Corpus V2

github2024-02-29 更新2024-05-31 收录

下载链接：

https://github.com/openDialog/openDialogCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

Frames数据集包含1369个人类-人类对话，平均每对话15轮，用于研究目标导向对话系统中的记忆作用。Sarcasm Corpus V2是一个大规模、多样化的在线辩论论坛对话语料库，用于研究讽刺和反讽。

The Frames dataset comprises 1,369 human-human dialogues, with an average of 15 turns per conversation, designed to investigate the role of memory in goal-oriented dialogue systems. The Sarcasm Corpus V2 is a large-scale, diverse collection of dialogues from online debate forums, utilized for the study of sarcasm and irony.

创建时间：

2018-01-27

原始信息汇总

1. FRAMES

Tags: 2017, Multi-turn, Goal-oriented, Frame-tracking(Dialog State Tracking)
Abstract: 该数据集包含1369个人类对话，平均每个对话有15轮。目的是研究记忆在目标导向对话系统中的作用。基于此数据集，引入了一个名为框架跟踪的任务，该任务扩展了状态跟踪，使其能够同时跟踪多个状态。提出了一个基线模型来完成此任务。
Paper: FRAMES: A CORPUS FOR ADDING MEMORY TO GOAL-ORIENTED DIALOGUE SYSTEMS
相关论文: A Frame Tracking Model for Memory-Enhanced Dialogue Systems
Dataset: http://datasets.maluuba.com/Frames

2. Sarcasm Corpus V2

Tags: 2017, Sarcasm
Abstract: 该数据集描述了创建一个大规模、多样化的在线辩论论坛对话中讽刺语料库的过程，并介绍了操作讽刺类别的创新方法，如修辞问题和夸张。使用词法句法线索可以高精度地检索讽刺语句。通过监督学习实验，展示了数据集的特性和质量，实现了比以前工作更高的精确度和F值。
Paper: Creating and Characterizing a Diverse Corpus of Sarcasm in Dialogue
Dataset: https://nlds.soe.ucsc.edu/sarcasm2

搜集汇总

数据集介绍

构建方式

Frames数据集的构建旨在研究目标导向对话系统中记忆的作用，包含1369段人类对话，每段对话平均包含15轮次。该数据集通过引入帧追踪任务，扩展了状态追踪的概念，使其能够同时追踪多个状态。Sarcasm Corpus V2则通过在线辩论论坛的对话数据，构建了一个大规模且多样化的讽刺语料库，采用新颖的方法将讽刺类别操作化为修辞问题和夸张表达，并通过词汇句法线索高精度地检索讽刺性话语。

特点

Frames数据集的特点在于其多轮次对话结构和帧追踪任务的引入，能够同时追踪多个对话状态，为研究对话系统中的记忆管理和信息呈现提供了丰富的数据支持。Sarcasm Corpus V2则以其多样化的讽刺类别和高精度的讽刺话语检索能力著称，通过词汇句法线索和弱监督语言模式学习，显著提升了讽刺检测的准确性和F值。

使用方法

Frames数据集可用于研究目标导向对话系统中的记忆管理、帧追踪任务以及自然语言生成中的信息呈现。研究者可以通过该数据集训练和评估基线模型，探索多状态追踪的机制。Sarcasm Corpus V2则适用于讽刺检测和分类任务，研究者可以利用其丰富的讽刺类别和词汇句法线索，进行监督学习和弱监督学习实验，分析不同讽刺类别的语言特征，提升讽刺检测的精度和效果。

背景与挑战

背景概述

Frames数据集于2017年由Maluuba研究团队发布，旨在探索记忆在目标导向对话系统中的角色。该数据集包含1369段人机对话，平均每段对话包含15轮次。通过引入帧追踪任务，Frames扩展了传统的状态追踪，使其能够同时追踪多个状态。该数据集不仅为对话管理中的记忆研究提供了基础，还推动了自然语言生成领域的信息呈现研究。Sarcasm Corpus V2同样发布于2017年，由UCSC的研究团队构建，专注于社交媒体中的讽刺与反语现象。该数据集通过大规模、多样化的在线辩论论坛对话，首次实现了对讽刺现象的规模化研究，并通过词汇句法线索高精度地识别讽刺性表达。

当前挑战

Frames数据集在解决目标导向对话系统中的记忆问题时，面临的主要挑战是如何在多轮对话中准确追踪多个状态，并确保模型能够有效利用历史信息进行决策。构建过程中，研究人员需设计复杂的对话场景，以确保数据集的多样性和实用性。Sarcasm Corpus V2在讽刺识别领域的主要挑战在于讽刺表达的多样性和模糊性，这使得构建高质量、高多样性的讽刺语料库变得极为困难。在数据收集与标注过程中，研究人员需开发新颖的方法来操作化讽刺类别，并通过弱监督学习技术提升数据质量。

常用场景

经典使用场景

在自然语言处理领域，Frames数据集被广泛应用于多轮对话系统的研究中，尤其是在目标导向对话系统中。该数据集通过提供1369段人类对话，每段对话平均包含15轮，为研究者提供了一个丰富的实验平台。通过Frames，研究者可以深入探讨对话系统中的记忆机制，并开发出能够同时追踪多个对话状态的模型。

衍生相关工作

基于Frames数据集，研究者们开发了多种记忆增强型对话系统模型。例如，相关论文《A Frame Tracking Model for Memory-Enhanced Dialogue Systems》提出了一种新的帧追踪模型，该模型在Frames数据集上进行了验证，并展示了其在多轮对话中的优越性能。这些工作为后续的对话系统研究提供了重要的理论基础和技术支持。

数据集最近研究