Self-dialogue Corpus

github2019-05-22 更新2024-05-31 收录

下载链接：

https://github.com/kastnerkyle/self_dialogue_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个早期发布的自对话语料库，包含24,165个对话，总计3,653,313个单词，涵盖23个主题。数据集包括原始CSV文件、排除不符合任务要求的工人的列表以及一个用于预处理数据的脚本。

This is an early-release self-dialogue corpus, comprising 24,165 dialogues with a total of 3,653,313 words, covering 23 topics. The dataset includes original CSV files, a list of workers excluded for not meeting task requirements, and a script for preprocessing the data.

创建时间：

2017-11-25

原始信息汇总

The Self-dialogue Corpus 概述

数据集基本信息

名称: The Self-dialogue Corpus
规模: 包含24,165个对话，总计3,653,313字
主题: 涵盖23个不同主题

数据集内容

corpus: 包含来自Amazon Mechanical Turk的原始CSV文件，按任务（主题）排序
blocked_workers.txt: 列出未遵守任务要求的工人，默认不包含这些工人的数据
get_data.py: 预处理脚本，用于将CSV格式转换为文本，并提供多种选项

数据处理脚本 (`get_data.py`)

使用示例: python get_data.py corpus formatted_corpus
可选参数:
- --output-naming: 输出文件命名方式，可选integer或assignment_id
- --remove-punctuation: 从输出中移除标点符号
- --set-case: 设置输出文本的格式，可选original, upper, lower
- --exclude-topic: 排除特定主题的数据
- --include-only: 仅包含特定主题的数据

搜集汇总

数据集介绍

构建方式

Self-dialogue Corpus数据集的构建，是基于Amazon Mechanical Turk平台，通过众包方式收集了23个主题下的24,165场对话，共计3,653,313个单词。数据集的构建过程严格筛选了合规的工作者，并通过预处理脚本`get_data.py`对原始CSV文件进行格式化处理，以适应不同的研究需求。

使用方法

使用该数据集时，用户可以从`corpus`目录获取原始CSV文件，通过`get_data.py`脚本来进行数据预处理。用户可以根据需要选择输出文件的命名方式、是否去除标点、设置大小写以及包含或排除特定主题，以定制化地满足研究需求。引用此数据集的研究应遵循提供的文献引用格式。

背景与挑战

背景概述

Self-dialogue Corpus数据集，创建于2017年，由Krause等研究人员构建，旨在为社交机器人研究领域提供一种新型的对话数据资源。该数据集包含23个主题下的24,165次对话，总计3,653,313个词汇，主要通过Amazon Mechanical Turk平台收集。该数据集的核心研究问题聚焦于如何通过自我对话提升社交机器人的交互能力和自然性，对理解人类对话模式、构建开放域社交机器人等领域产生了显著影响。

当前挑战

该数据集面临的挑战主要包括：1) 在领域问题上，如何利用自我对话数据提升社交机器人的对话质量，以及如何准确评估社交机器人的表现；2) 在构建过程中，确保数据的质量和多样性，处理来自 Mechanical Turk的工作者不符合任务要求的情况，以及数据预处理中的各种技术问题，如文本格式化、标点符号处理和大小写设置等。

常用场景

经典使用场景

在自然语言处理领域，Self-dialogue Corpus数据集的典型应用场景在于构建与评估社交机器人。该数据集收集了涵盖23个主题的24,165场对话，总计3,653,313个词汇，通过Mechanical Turk平台众包而成，为研究者提供了丰富的交互数据资源。

解决学术问题

Self-dialogue Corpus数据集解决了社交机器人开发中缺乏真实对话数据的问题，有助于研究人员准确评估社交机器人在开放领域对话中的表现，进而提升机器人的对话质量与连贯性。该数据集的构建对促进自然语言理解和生成技术的发展具有重要的学术价值。

实际应用

在实践应用方面，Self-dialogue Corpus数据集可用于训练和优化社交机器人，使其更好地适应人类的对话模式。此外，它还能为教育、娱乐、客户服务等多个领域的虚拟对话系统提供数据支持，推动相关产业的发展。

数据集最近研究

Self-dialogue Corpus

The Self-dialogue Corpus 概述

数据集基本信息

数据集内容

数据处理脚本 (get_data.py)

数据处理脚本 (`get_data.py`)