Frames, Sarcasm Corpus V2

github2024-02-29 更新2024-05-31 收录

下载链接：

https://github.com/dialoguesystems/dialogue-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

Frames数据集包含1369个人与人的对话，平均每对话15轮，用于研究目标导向对话系统中的记忆作用。Sarcasm Corpus V2是一个大规模、多样化的在线辩论论坛对话讽刺语料库，用于研究讽刺和反讽。

The Frames dataset comprises 1,369 human-to-human dialogues, with an average of 15 turns per conversation, designed to investigate the role of memory in goal-oriented dialogue systems. The Sarcasm Corpus V2 is a large-scale, diverse collection of sarcastic and ironic dialogues from online debate forums, utilized for the study of sarcasm and irony.

创建时间：

2018-01-27

原始信息汇总

数据集概述

1. FRAMES

Tags: 2017, Multi-turn, Goal-oriented, Frame-tracking(Dialog State Tracking)
Abstract: 本数据集包含1369个人类对话，平均每对话15轮。旨在研究目标导向对话系统中的记忆作用。引入了帧跟踪任务，扩展了状态跟踪的概念，以同时跟踪多个状态。提出了一个基线模型，并展示了该数据集在对话管理和自然语言生成中研究记忆的潜力。
Paper: FRAMES: A CORPUS FOR ADDING MEMORY TO GOAL-ORIENTED DIALOGUE SYSTEMS
相关论文: A Frame Tracking Model for Memory-Enhanced Dialogue Systems
Dataset: http://datasets.maluuba.com/Frames

2. Sarcasm Corpus V2

Tags: 2017, Sarcasm
Abstract: 本数据集描述了创建大规模、多样化的在线辩论论坛对话中讽刺语料的过程。通过词汇句法线索，能够以高准确率检索讽刺语句。通过监督学习实验，展示了数据集的高精度和F值，优于先前的工作。应用了弱监督语言模式学习器，并定性分析了每类的语言差异。
Paper: Creating and Characterizing a Diverse Corpus of Sarcasm in Dialogue
Dataset: https://nlds.soe.ucsc.edu/sarcasm2

搜集汇总

数据集介绍

构建方式

Frames数据集构建于2017年，旨在研究目标导向对话系统中记忆的作用。该数据集包含1369个人与人之间的多轮对话，平均每轮对话包含15个回合。通过引入帧追踪任务，研究者扩展了状态追踪的概念，使其能够同时追踪多个状态。Sarcasm Corpus V2则聚焦于社交媒体中的讽刺和反语现象，通过在线辩论论坛的对话数据，构建了一个大规模且多样化的讽刺语料库。研究者采用新颖的方法，将讽刺分为修辞性问题和夸张两类，并通过词汇句法线索高精度地识别讽刺性表达。

特点

Frames数据集的特点在于其多轮对话结构和目标导向性，特别适合研究对话系统中的记忆管理和信息呈现。该数据集不仅提供了丰富的对话上下文，还引入了帧追踪任务，为多状态追踪提供了新的研究视角。Sarcasm Corpus V2则以其多样性和高质量著称，涵盖了多种讽刺表达形式，尤其是修辞性问题和夸张。通过词汇句法线索的高效识别，该数据集为讽刺检测研究提供了可靠的基础。

使用方法

Frames数据集可用于训练和评估目标导向对话系统中的记忆增强模型，特别是帧追踪任务。研究者可以通过该数据集探索多状态追踪的算法，并优化对话管理策略。Sarcasm Corpus V2则适用于讽刺检测和自然语言处理任务，研究者可以利用其丰富的讽刺表达形式，开发高效的讽刺识别模型。通过监督学习和弱监督学习方法，该数据集能够帮助提升讽刺检测的精度和F值。

背景与挑战

背景概述

Frames数据集于2017年由Maluuba研究团队发布，旨在研究目标导向对话系统中记忆的作用。该数据集包含1369段人机对话，平均每段对话包含15轮次。通过引入帧追踪任务，Frames扩展了传统的状态追踪，使其能够同时追踪多个状态。该数据集不仅为对话管理中的记忆研究提供了基础，还为自然语言生成中的信息呈现提供了新的视角。Sarcasm Corpus V2同样发布于2017年，由加州大学圣克鲁兹分校的研究团队构建，专注于社交媒体中讽刺和反语的多样性研究。该数据集通过大规模在线辩论论坛对话，展示了讽刺的多样性，并通过词汇句法线索实现了高精度的讽刺识别。

当前挑战

Frames数据集在解决目标导向对话系统中的记忆问题时，面临的主要挑战是如何在多轮对话中准确追踪多个状态，并确保对话系统的记忆机制能够有效支持信息呈现。构建过程中，研究人员需处理大量复杂的对话数据，确保数据的一致性和标注的准确性。Sarcasm Corpus V2在解决讽刺识别问题时，面临的挑战是如何在多样化的社交媒体对话中准确识别讽刺表达，尤其是通过修辞问句和夸张手法表达的讽刺。构建过程中，研究人员需克服讽刺表达的多样性和模糊性，确保数据集的多样性和标注的高质量。

常用场景

经典使用场景

Frames数据集在目标导向对话系统的研究中扮演了重要角色，尤其是在多轮对话和对话状态跟踪方面。该数据集通过提供1369段人类对话，每段对话平均包含15个轮次，为研究者提供了一个丰富的实验平台。Sarcasm Corpus V2则专注于社交媒体中的讽刺和反语现象，通过大规模、多样化的在线辩论论坛对话，为讽刺检测任务提供了高质量的数据支持。

解决学术问题

Frames数据集解决了目标导向对话系统中记忆机制的研究问题，特别是如何同时跟踪多个对话状态。通过引入帧跟踪任务，该数据集为对话管理和自然语言生成中的信息呈现提供了新的研究视角。Sarcasm Corpus V2则通过构建多样化的讽刺语料库，解决了讽刺检测中数据质量和多样性不足的问题，为讽刺的自动识别提供了可靠的数据基础。

衍生相关工作

基于Frames数据集，研究者提出了多种帧跟踪模型，进一步推动了目标导向对话系统的发展。相关研究还探讨了对话管理中的记忆机制和信息呈现策略。Sarcasm Corpus V2则催生了一系列讽刺检测算法，特别是在弱监督学习和语言学模式分析方面，为讽刺的自动识别提供了新的方法和技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集