jiho283/dialsim-theoffice
收藏Hugging Face2024-06-11 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/jiho283/dialsim-theoffice
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: Episode
dtype: string
- name: Session
dtype: int64
- name: Date
dtype: string
- name: Script
dtype: string
- name: hard_qs_past_questions
list:
- name: Dwight
dtype: string
- name: Jim
dtype: string
- name: Pam
dtype: string
- name: Ryan
dtype: string
- name: default
dtype: string
- name: hard_qs_past_options
sequence:
sequence: string
- name: hard_qs_past_answers
sequence: string
- name: hard_qs_cur_questions
list:
- name: Dwight
dtype: string
- name: Jim
dtype: string
- name: Pam
dtype: string
- name: Ryan
dtype: string
- name: default
dtype: string
- name: hard_qs_cur_options
sequence:
sequence: string
- name: hard_qs_cur_answers
sequence: string
- name: hard_qs_fu_questions
list:
- name: Dwight
dtype: string
- name: Jim
dtype: string
- name: Pam
dtype: string
- name: Ryan
dtype: string
- name: default
dtype: string
- name: hard_qs_fu_options
sequence:
sequence: string
- name: hard_qs_fu_answers
sequence: string
- name: hard_qs_past_past_questions
list:
- name: Dwight
dtype: string
- name: Jim
dtype: string
- name: Pam
dtype: string
- name: Ryan
dtype: string
- name: default
dtype: string
- name: hard_qs_past_past_options
sequence:
sequence: string
- name: hard_qs_past_past_answers
sequence: string
- name: hard_qs_cur_past_questions
list:
- name: Dwight
dtype: string
- name: Jim
dtype: string
- name: Pam
dtype: string
- name: Ryan
dtype: string
- name: default
dtype: string
- name: hard_qs_cur_past_options
sequence:
sequence: string
- name: hard_qs_cur_past_answers
sequence: string
- name: easy_qs_ans_w_time_questions
list:
- name: Dwight
dtype: string
- name: Jim
dtype: string
- name: Pam
dtype: string
- name: Ryan
dtype: string
- name: default
dtype: string
- name: easy_qs_ans_w_time_options
sequence:
sequence: string
- name: easy_qs_ans_w_time_answers
sequence: string
- name: easy_qs_ans_w_time_idxes
sequence: int64
- name: easy_qs_ans_wo_time_questions
list:
- name: Dwight
dtype: string
- name: Jim
dtype: string
- name: Pam
dtype: string
- name: Ryan
dtype: string
- name: default
dtype: string
- name: easy_qs_ans_wo_time_options
sequence:
sequence: string
- name: easy_qs_ans_wo_time_answers
sequence: string
- name: easy_qs_ans_wo_time_idxes
sequence: int64
- name: easy_qs_before_event_unans_questions
list:
- name: Dwight
dtype: string
- name: Jim
dtype: string
- name: Pam
dtype: string
- name: Ryan
dtype: string
- name: default
dtype: string
- name: easy_qs_before_event_unans_options
sequence:
sequence: string
- name: easy_qs_before_event_unans_answers
sequence: string
- name: easy_qs_before_event_unans_idxes
sequence: int64
- name: easy_qs_dont_know_unans_questions
list:
- name: Dwight
dtype: string
- name: Jim
dtype: string
- name: Pam
dtype: string
- name: Ryan
dtype: string
- name: default
dtype: string
- name: easy_qs_dont_know_unans_options
sequence:
sequence: string
- name: easy_qs_dont_know_unans_answers
sequence: string
- name: easy_qs_dont_know_unans_idxes
sequence: int64
- name: easy_qs_dont_know_unans_time_questions
list:
- name: Dwight
dtype: string
- name: Jim
dtype: string
- name: Pam
dtype: string
- name: Ryan
dtype: string
- name: default
dtype: string
- name: easy_qs_dont_know_unans_time_options
sequence:
sequence: string
- name: easy_qs_dont_know_unans_time_answers
sequence: string
- name: easy_qs_dont_know_unans_time_idxes
sequence: int64
splits:
- name: train
num_bytes: 810805273
num_examples: 2347
download_size: 7499520
dataset_size: 810805273
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征:
1. 名称:剧集(Episode),数据类型:字符串
2. 名称:会话(Session),数据类型:64位整数
3. 名称:日期(Date),数据类型:字符串
4. 名称:剧本(Script),数据类型:字符串
5. 名称:过往难题问题(hard_qs_past_questions),列表类型,包含子特征:
- 名称:德怀特(Dwight),数据类型:字符串
- 名称:吉姆(Jim),数据类型:字符串
- 名称:帕姆(Pam),数据类型:字符串
- 名称:瑞安(Ryan),数据类型:字符串
- 名称:默认(default),数据类型:字符串
6. 名称:过往难题选项(hard_qs_past_options),嵌套序列类型,元素为字符串
7. 名称:过往难题答案(hard_qs_past_answers),序列类型,元素为字符串
8. 名称:当前难题问题(hard_qs_cur_questions),列表类型,包含子特征:
- 名称:德怀特(Dwight),数据类型:字符串
- 名称:吉姆(Jim),数据类型:字符串
- 名称:帕姆(Pam),数据类型:字符串
- 名称:瑞安(Ryan),数据类型:字符串
- 名称:默认(default),数据类型:字符串
9. 名称:当前难题选项(hard_qs_cur_options),嵌套序列类型,元素为字符串
10. 名称:当前难题答案(hard_qs_cur_answers),序列类型,元素为字符串
11. 名称:后续难题问题(hard_qs_fu_questions),列表类型,包含子特征:
- 名称:德怀特(Dwight),数据类型:字符串
- 名称:吉姆(Jim),数据类型:字符串
- 名称:帕姆(Pam),数据类型:字符串
- 名称:瑞安(Ryan),数据类型:字符串
- 名称:默认(default),数据类型:字符串
12. 名称:后续难题选项(hard_qs_fu_options),嵌套序列类型,元素为字符串
13. 名称:后续难题答案(hard_qs_fu_answers),序列类型,元素为字符串
14. 名称:更早过往难题问题(hard_qs_past_past_questions),列表类型,包含子特征:
- 名称:德怀特(Dwight),数据类型:字符串
- 名称:吉姆(Jim),数据类型:字符串
- 名称:帕姆(Pam),数据类型:字符串
- 名称:瑞安(Ryan),数据类型:字符串
- 名称:默认(default),数据类型:字符串
15. 名称:更早过往难题选项(hard_qs_past_past_options),嵌套序列类型,元素为字符串
16. 名称:更早过往难题答案(hard_qs_past_past_answers),序列类型,元素为字符串
17. 名称:当前关联过往难题问题(hard_qs_cur_past_questions),列表类型,包含子特征:
- 名称:德怀特(Dwight),数据类型:字符串
- 名称:吉姆(Jim),数据类型:字符串
- 名称:帕姆(Pam),数据类型:字符串
- 名称:瑞安(Ryan),数据类型:字符串
- 名称:默认(default),数据类型:字符串
18. 名称:当前关联过往难题选项(hard_qs_cur_past_options),嵌套序列类型,元素为字符串
19. 名称:当前关联过往难题答案(hard_qs_cur_past_answers),序列类型,元素为字符串
20. 名称:带时间的简易题问题(easy_qs_ans_w_time_questions),列表类型,包含子特征:
- 名称:德怀特(Dwight),数据类型:字符串
- 名称:吉姆(Jim),数据类型:字符串
- 名称:帕姆(Pam),数据类型:字符串
- 名称:瑞安(Ryan),数据类型:字符串
- 名称:默认(default),数据类型:字符串
21. 名称:带时间的简易题选项(easy_qs_ans_w_time_options),嵌套序列类型,元素为字符串
22. 名称:带时间的简易题答案(easy_qs_ans_w_time_answers),序列类型,元素为字符串
23. 名称:带时间的简易题索引(easy_qs_ans_w_time_idxes),序列类型,元素为64位整数
24. 名称:不带时间的简易题问题(easy_qs_ans_wo_time_questions),列表类型,包含子特征:
- 名称:德怀特(Dwight),数据类型:字符串
- 名称:吉姆(Jim),数据类型:字符串
- 名称:帕姆(Pam),数据类型:字符串
- 名称:瑞安(Ryan),数据类型:字符串
- 名称:默认(default),数据类型:字符串
25. 名称:不带时间的简易题选项(easy_qs_ans_wo_time_options),嵌套序列类型,元素为字符串
26. 名称:不带时间的简易题答案(easy_qs_ans_wo_time_answers),序列类型,元素为字符串
27. 名称:不带时间的简易题索引(easy_qs_ans_wo_time_idxes),序列类型,元素为64位整数
28. 名称:事件前未答简易题问题(easy_qs_before_event_unans_questions),列表类型,包含子特征:
- 名称:德怀特(Dwight),数据类型:字符串
- 名称:吉姆(Jim),数据类型:字符串
- 名称:帕姆(Pam),数据类型:字符串
- 名称:瑞安(Ryan),数据类型:字符串
- 名称:默认(default),数据类型:字符串
29. 名称:事件前未答简易题选项(easy_qs_before_event_unans_options),嵌套序列类型,元素为字符串
30. 名称:事件前未答简易题答案(easy_qs_before_event_unans_answers),序列类型,元素为字符串
31. 名称:事件前未答简易题索引(easy_qs_before_event_unans_idxes),序列类型,元素为64位整数
32. 名称:未知未答简易题问题(easy_qs_dont_know_unans_questions),列表类型,包含子特征:
- 名称:德怀特(Dwight),数据类型:字符串
- 名称:吉姆(Jim),数据类型:字符串
- 名称:帕姆(Pam),数据类型:字符串
- 名称:瑞安(Ryan),数据类型:字符串
- 名称:默认(default),数据类型:字符串
33. 名称:未知未答简易题选项(easy_qs_dont_know_unans_options),嵌套序列类型,元素为字符串
34. 名称:未知未答简易题答案(easy_qs_dont_know_unans_answers),序列类型,元素为字符串
35. 名称:未知未答简易题索引(easy_qs_dont_know_unans_idxes),序列类型,元素为64位整数
36. 名称:带时间的未知未答简易题问题(easy_qs_dont_know_unans_time_questions),列表类型,包含子特征:
- 名称:德怀特(Dwight),数据类型:字符串
- 名称:吉姆(Jim),数据类型:字符串
- 名称:帕姆(Pam),数据类型:字符串
- 名称:瑞安(Ryan),数据类型:字符串
- 名称:默认(default),数据类型:字符串
37. 名称:带时间的未知未答简易题选项(easy_qs_dont_know_unans_time_options),嵌套序列类型,元素为字符串
38. 名称:带时间的未知未答简易题答案(easy_qs_dont_know_unans_time_answers),序列类型,元素为字符串
39. 名称:带时间的未知未答简易题索引(easy_qs_dont_know_unans_time_idxes),序列类型,元素为64位整数
拆分集:
- 名称:训练集(train),字节大小:810805273,样本数量:2347
下载总大小:7499520字节,数据集总大小:810805273字节
配置:
- 配置名称:默认配置(default),数据文件:
- 拆分集:训练集,路径:data/train-*
提供机构:
jiho283
原始信息汇总
数据集概述
数据集特征
- Episode: 字符串类型
- Session: 64位整数类型
- Date: 字符串类型
- Script: 字符串类型
- hard_qs_past_questions: 列表类型,包含以下字段:
- Dwight: 字符串类型
- Jim: 字符串类型
- Pam: 字符串类型
- Ryan: 字符串类型
- default: 字符串类型
- hard_qs_past_options: 序列类型,字符串序列
- hard_qs_past_answers: 序列类型,字符串序列
- hard_qs_cur_questions: 列表类型,包含以下字段:
- Dwight: 字符串类型
- Jim: 字符串类型
- Pam: 字符串类型
- Ryan: 字符串类型
- default: 字符串类型
- hard_qs_cur_options: 序列类型,字符串序列
- hard_qs_cur_answers: 序列类型,字符串序列
- hard_qs_fu_questions: 列表类型,包含以下字段:
- Dwight: 字符串类型
- Jim: 字符串类型
- Pam: 字符串类型
- Ryan: 字符串类型
- default: 字符串类型
- hard_qs_fu_options: 序列类型,字符串序列
- hard_qs_fu_answers: 序列类型,字符串序列
- hard_qs_past_past_questions: 列表类型,包含以下字段:
- Dwight: 字符串类型
- Jim: 字符串类型
- Pam: 字符串类型
- Ryan: 字符串类型
- default: 字符串类型
- hard_qs_past_past_options: 序列类型,字符串序列
- hard_qs_past_past_answers: 序列类型,字符串序列
- hard_qs_cur_past_questions: 列表类型,包含以下字段:
- Dwight: 字符串类型
- Jim: 字符串类型
- Pam: 字符串类型
- Ryan: 字符串类型
- default: 字符串类型
- hard_qs_cur_past_options: 序列类型,字符串序列
- hard_qs_cur_past_answers: 序列类型,字符串序列
- easy_qs_ans_w_time_questions: 列表类型,包含以下字段:
- Dwight: 字符串类型
- Jim: 字符串类型
- Pam: 字符串类型
- Ryan: 字符串类型
- default: 字符串类型
- easy_qs_ans_w_time_options: 序列类型,字符串序列
- easy_qs_ans_w_time_answers: 序列类型,字符串序列
- easy_qs_ans_w_time_idxes: 序列类型,64位整数序列
- easy_qs_ans_wo_time_questions: 列表类型,包含以下字段:
- Dwight: 字符串类型
- Jim: 字符串类型
- Pam: 字符串类型
- Ryan: 字符串类型
- default: 字符串类型
- easy_qs_ans_wo_time_options: 序列类型,字符串序列
- easy_qs_ans_wo_time_answers: 序列类型,字符串序列
- easy_qs_ans_wo_time_idxes: 序列类型,64位整数序列
- easy_qs_before_event_unans_questions: 列表类型,包含以下字段:
- Dwight: 字符串类型
- Jim: 字符串类型
- Pam: 字符串类型
- Ryan: 字符串类型
- default: 字符串类型
- easy_qs_before_event_unans_options: 序列类型,字符串序列
- easy_qs_before_event_unans_answers: 序列类型,字符串序列
- easy_qs_before_event_unans_idxes: 序列类型,64位整数序列
- easy_qs_dont_know_unans_questions: 列表类型,包含以下字段:
- Dwight: 字符串类型
- Jim: 字符串类型
- Pam: 字符串类型
- Ryan: 字符串类型
- default: 字符串类型
- easy_qs_dont_know_unans_options: 序列类型,字符串序列
- easy_qs_dont_know_unans_answers: 序列类型,字符串序列
- easy_qs_dont_know_unans_idxes: 序列类型,64位整数序列
- easy_qs_dont_know_unans_time_questions: 列表类型,包含以下字段:
- Dwight: 字符串类型
- Jim: 字符串类型
- Pam: 字符串类型
- Ryan: 字符串类型
- default: 字符串类型
- easy_qs_dont_know_unans_time_options: 序列类型,字符串序列
- easy_qs_dont_know_unans_time_answers: 序列类型,字符串序列
- easy_qs_dont_know_unans_time_idxes: 序列类型,64位整数序列
数据集分割
- train:
- num_bytes: 810805273
- num_examples: 2347
数据集大小
- download_size: 7499520
- dataset_size: 810805273
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:
搜集汇总
数据集介绍

构建方式
在对话系统与叙事理解的研究领域,DialSim-TheOffice数据集通过结构化提取美剧《办公室》的剧本内容构建而成。该数据集以剧集为单位,系统性地整理了对话会话、日期及原始脚本,并在此基础上生成了多类问答对。构建过程涉及从剧本中识别特定角色的对话流,进而设计涵盖过去、当前及未来时间维度的复杂问题,同时包含易答与未答等不同难度层级的问答实例,形成了层次丰富的叙事理解与推理任务数据。
特点
该数据集的核心特征在于其深度结构化与多维时间推理设计。数据以嵌套列表和序列形式组织,不仅包含基础剧集信息,更针对Dwight、Jim、Pam、Ryan等主要角色定制了差异化的问题表述。其特色在于区分了“hard_qs”与“easy_qs”两大类问题,其中困难问题进一步细分为涉及过去、当前、未来以及交叉时间背景的推理问题,而简单问题则根据是否包含时间线索、是否在事件前未答、是否以“不知道”回应等情境进行标注,并附有选项序列与答案索引,为模型提供了检验时序理解与角色认知能力的精细测试平台。
使用方法
在自然语言处理与人工智能研究中,该数据集适用于训练与评估对话代理、叙事理解模型及时间推理系统。使用者可通过加载指定配置轻松访问训练集,利用其丰富的特征字段进行多任务学习。例如,模型可针对特定角色的定制问题进行回答预测,或利用不同时间背景的问题序列来建模对话历史与未来语境。数据集中提供的选项序列与明确答案支持多项选择任务,而答案索引则便于进行答案定位与验证,为研究角色一致性、常识推理与长期依赖建模提供了标准化的实验基准。
背景与挑战
背景概述
在对话系统与叙事理解的研究领域,构建能够模拟人类认知过程的智能体始终是核心目标。DialSim-TheOffice数据集应运而生,它基于经典电视剧《办公室》的剧本构建,由研究人员jiho283等人创建,旨在为时序推理、角色一致性以及复杂叙事理解提供结构化基准。该数据集通过精心设计的问答任务,捕捉角色在动态对话中的记忆、意图与情感演变,从而推动对话人工智能在深层语义理解方面的发展,对影视叙事分析与个性化对话生成产生了显著影响。
当前挑战
DialSim-TheOffice数据集致力于解决叙事对话中时序推理与角色一致性建模的挑战,要求模型在长程对话中准确追踪事件因果与角色状态变迁。构建过程中,挑战主要源于原始剧本的非结构化特性,需将松散对话转化为具有明确时序标签与角色属性的问答对,同时确保多轮问答的逻辑连贯性,并处理角色特有语言风格与幽默元素的标注难题,这对数据清洗与结构化提出了极高要求。
常用场景
经典使用场景
在对话系统与叙事理解领域,DialSim-TheOffice数据集以其结构化多轮对话与角色特定问答为特色,为研究对话状态追踪与角色一致性建模提供了经典场景。该数据集源自电视剧《办公室》的剧本,通过精心设计的“困难”与“简单”问题类别,模拟了角色在时间序列事件中的记忆与推理过程。研究者可借此探索模型如何基于过往对话历史,准确预测角色在特定情境下的回应,从而深化对叙事连贯性与角色行为逻辑的理解。
衍生相关工作
围绕该数据集,学术界已衍生出一系列聚焦于叙事理解与角色化对话生成的研究工作。例如,部分研究利用其多层次问答结构,开发了新型注意力机制以加强模型对长对话历史的利用效率;另一些工作则借鉴其角色特定数据划分,提出了改进的角色嵌入方法,以提升对话生成的角色一致性。这些探索共同推动了基于叙事的对话建模技术前沿,并为跨媒体内容分析与生成提供了方法论参考。
数据集最近研究
最新研究方向
在对话系统与叙事理解领域,基于《办公室》剧集构建的DialSim数据集正推动角色一致性建模与长程上下文推理的前沿探索。该数据集通过结构化标注的对话历史与多轮问答对,为研究角色个性化记忆机制与时间感知推理提供了丰富资源。当前热点聚焦于利用该数据集训练大语言模型,以模拟复杂社交互动中的角色行为预测与情感演化分析,其影响在于深化了虚拟角色在开放域对话中的可信度与连贯性,为娱乐科技与交互式叙事生成奠定了实证基础。
以上内容由遇见数据集搜集并总结生成



