KOMODIS dataset
收藏github2024-05-07 更新2024-05-31 收录
下载链接:
https://github.com/fabiangal/komodis-dataset
下载链接
链接失效反馈官方服务:
资源简介:
一个由众包收集的知识丰富和观点鲜明的电影讨论对话数据集,用于训练神经对话模型。
A knowledge-rich and opinionated movie discussion dialogue dataset collected via crowdsourcing, intended for training neural dialogue models.
创建时间:
2020-03-02
原始信息汇总
KOMODIS 数据集
简介
KOMODIS 数据集是一个增强型对话数据集,全称为 Knowledgable and Opinionated MOvie DIScussions。该数据集是通过 Amazon Mechanical Turk 众包收集的,每个对话基于同一部电影的两个特征结构(每个众包工作者一个)。
数据
数据集文件位于 data/dataset.json,提供了完整的后处理对话数据。关于如何读取和使用结构化数据的说明,请参考 data/example.json(即将上传)。
模型
提供了基于 PyTorch 的 GPT-2 模型训练脚本,位于 model/ 目录下。训练模型需要运行 train.py 脚本:
bash
python train.py --dataset komodis
更多关于额外参数的信息可以在脚本中找到。请从 https://github.com/huggingface/transformers 下载预训练的 GPT-2 权重,并存储在 data/pretrained_models/gpt2/ 和 data/pretrained_weights/tokenizers 目录下。
搜集汇总
数据集介绍

构建方式
KOMODIS数据集通过众包方式构建,利用Amazon Mechanical Turk平台收集对话数据。每段对话基于同一部电影的两个特征结构,分别由两名众包工作者提供。这种设计确保了对话内容既包含知识性又具备观点性,从而为训练神经对话模型提供了丰富的语料。
特点
KOMODIS数据集的显著特点在于其对话内容的知识性和观点性。每段对话不仅基于电影的详细信息,还融合了参与者的个人见解,使得数据集在训练对话模型时能够捕捉到更深层次的语义和情感信息。此外,数据集的结构化设计便于模型理解和处理。
使用方法
使用KOMODIS数据集时,用户可以通过提供的*data/dataset.json*文件获取完整的数据集。为便于理解数据结构,*data/example.json*文件提供了详细的使用示例。此外,数据集附带了一个基于PyTorch的GPT-2模型训练脚本,用户可以通过运行*train.py*脚本并指定数据集名称来开始训练模型。
背景与挑战
背景概述
KOMODIS数据集是由一群研究人员在2020年创建的,旨在为训练神经对话模型提供一个结构化的电影讨论语料库。该数据集的核心研究问题是如何在对话模型中有效地结合知识和观点,以提升模型的对话质量。通过Amazon Mechanical Turk平台,研究人员收集了大量基于特定电影的对话数据,每段对话都基于两个不同的特征结构,分别对应两个参与者的观点和知识。这一数据集的创建不仅丰富了对话系统的训练资源,还为电影领域的对话生成研究提供了新的视角和方法。
当前挑战
KOMODIS数据集在构建过程中面临了多个挑战。首先,如何确保对话内容既包含知识性又具有观点性,是一个复杂的问题。其次,通过众包平台收集数据时,如何保证数据的质量和一致性也是一个重要挑战。此外,将这些对话数据有效地整合到神经对话模型中,尤其是GPT-2等预训练模型,需要解决数据结构化和模型适应性等问题。这些挑战不仅影响了数据集的构建,也对后续的模型训练和应用提出了更高的要求。
常用场景
经典使用场景
KOMODIS数据集在电影讨论领域中被广泛用于训练神经对话模型,尤其是那些需要具备知识和观点表达能力的模型。通过该数据集,研究者能够构建出能够进行深入电影讨论的对话系统,这些系统不仅能够表达个人观点,还能基于电影知识进行有深度的交流。
实际应用
在实际应用中,KOMODIS数据集可以用于开发智能电影推荐系统或电影评论分析工具。例如,通过分析用户的电影讨论内容,系统可以更准确地推荐符合用户兴趣的电影,或者通过对话生成技术,自动生成具有深度分析的电影评论,从而提升用户体验。
衍生相关工作
基于KOMODIS数据集,研究者们开发了多种对话生成模型,这些模型在电影讨论、知识问答等领域展现了出色的性能。此外,KOMODIS的成功也启发了其他领域的对话数据集构建,如书籍讨论、科技话题讨论等,推动了对话系统在多个垂直领域的应用研究。
以上内容由遇见数据集搜集并总结生成



