five

Self-dialogue Corpus

收藏
github2019-05-22 更新2024-05-31 收录
下载链接:
https://github.com/kastnerkyle/self_dialogue_corpus
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个早期发布的自对话语料库,包含24,165个对话,总计3,653,313个单词,涵盖23个主题。数据集包括原始CSV文件、排除不符合任务要求的工人的列表以及一个用于预处理数据的脚本。

This is an early-release self-dialogue corpus, comprising 24,165 dialogues with a total of 3,653,313 words, covering 23 topics. The dataset includes original CSV files, a list of workers excluded for not meeting task requirements, and a script for preprocessing the data.
创建时间:
2017-11-25
原始信息汇总

The Self-dialogue Corpus 概述

数据集基本信息

  • 名称: The Self-dialogue Corpus
  • 规模: 包含24,165个对话,总计3,653,313字
  • 主题: 涵盖23个不同主题

数据集内容

  • corpus: 包含来自Amazon Mechanical Turk的原始CSV文件,按任务(主题)排序
  • blocked_workers.txt: 列出未遵守任务要求的工人,默认不包含这些工人的数据
  • get_data.py: 预处理脚本,用于将CSV格式转换为文本,并提供多种选项

数据处理脚本 (get_data.py)

  • 使用示例: python get_data.py corpus formatted_corpus
  • 可选参数:
    • --output-naming: 输出文件命名方式,可选integerassignment_id
    • --remove-punctuation: 从输出中移除标点符号
    • --set-case: 设置输出文本的格式,可选original, upper, lower
    • --exclude-topic: 排除特定主题的数据
    • --include-only: 仅包含特定主题的数据
搜集汇总
数据集介绍
main_image_url
构建方式
Self-dialogue Corpus数据集的构建,是基于Amazon Mechanical Turk平台,通过众包方式收集了23个主题下的24,165场对话,共计3,653,313个单词。数据集的构建过程严格筛选了合规的工作者,并通过预处理脚本`get_data.py`对原始CSV文件进行格式化处理,以适应不同的研究需求。
使用方法
使用该数据集时,用户可以从`corpus`目录获取原始CSV文件,通过`get_data.py`脚本来进行数据预处理。用户可以根据需要选择输出文件的命名方式、是否去除标点、设置大小写以及包含或排除特定主题,以定制化地满足研究需求。引用此数据集的研究应遵循提供的文献引用格式。
背景与挑战
背景概述
Self-dialogue Corpus数据集,创建于2017年,由Krause等研究人员构建,旨在为社交机器人研究领域提供一种新型的对话数据资源。该数据集包含23个主题下的24,165次对话,总计3,653,313个词汇,主要通过Amazon Mechanical Turk平台收集。该数据集的核心研究问题聚焦于如何通过自我对话提升社交机器人的交互能力和自然性,对理解人类对话模式、构建开放域社交机器人等领域产生了显著影响。
当前挑战
该数据集面临的挑战主要包括:1) 在领域问题上,如何利用自我对话数据提升社交机器人的对话质量,以及如何准确评估社交机器人的表现;2) 在构建过程中,确保数据的质量和多样性,处理来自 Mechanical Turk的工作者不符合任务要求的情况,以及数据预处理中的各种技术问题,如文本格式化、标点符号处理和大小写设置等。
常用场景
经典使用场景
在自然语言处理领域,Self-dialogue Corpus数据集的典型应用场景在于构建与评估社交机器人。该数据集收集了涵盖23个主题的24,165场对话,总计3,653,313个词汇,通过Mechanical Turk平台众包而成,为研究者提供了丰富的交互数据资源。
解决学术问题
Self-dialogue Corpus数据集解决了社交机器人开发中缺乏真实对话数据的问题,有助于研究人员准确评估社交机器人在开放领域对话中的表现,进而提升机器人的对话质量与连贯性。该数据集的构建对促进自然语言理解和生成技术的发展具有重要的学术价值。
实际应用
在实践应用方面,Self-dialogue Corpus数据集可用于训练和优化社交机器人,使其更好地适应人类的对话模式。此外,它还能为教育、娱乐、客户服务等多个领域的虚拟对话系统提供数据支持,推动相关产业的发展。
数据集最近研究
最新研究方向
在自然语言处理领域,Self-dialogue Corpus的构建为研究开放域社交机器人对话系统提供了新的视角。该数据集的近期研究方向主要集中于提升机器人在自我对话中的连贯性与多样性。通过对该数据集的深入分析,研究者们致力于开发能够模拟人类自我对话行为的社交机器人,以增强其在信息检索、情感支持等方面的应用能力。此外,该数据集的利用还与构建自适应学习模型的研究相结合,通过机器的自我对话进行知识获取与概念巩固,进而推动人工智能领域对话系统的前沿发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作