Conversational-Reasoning/Topical-Chat-Enriched
收藏Enriched Topical-Chat: 对话行为和知识句标注的版本
Enriched Topical-Chat 是 Topical-Chat 的一个增强版本,包含对话行为和知识句的标注。每个标注都是使用现成的模型自动完成的。
知识句标注
Topical-Chat 中的每个对话都有一个阅读集,包含一组知识句。对于 Topical-Chat 数据集中的每个对话轮次和知识句,我们计算了 TFIDF 向量,然后计算对话轮次和知识句之间的余弦相似度,并选择相似度最高的知识句。在新版本的数据发布中,每个对话轮次都会展示选定的知识句及其相似度分数。
对话行为标注
我们通过运行一个现成的 SVM 对话行为标记器来获取每个对话轮次的对话行为,该标记器是在五个数据集(Switchboard, Oasis BT, Maptask, VerbMobil2, AMI)上训练的。
数据格式
每个 .json 文件包含以下格式:
json { "t_d004c097-424d-45d4-8f91-833d85c2da31": { "article_url": "<link to washington post article>", "config": "C", "content": [ { "message": ["Did you know that the University of Iowas locker room is painted pink?", "I wonder why?"], "agent": "agent_1", "segmented_annotations": [ { "da": "PropQ", "gt_ks": {"score": 0.73,"ds": "wiki", "section": "FS1", "start_index": 0, "end_index": 100}, }, { "da": "ChoiceQ", "gt_ks": {"score": 0.0, "ds": "article", "section": "AS4", "start_index": 0, "end_index": 100}, } ], "gt_turn_ks": {"score": 0.67, "ds": "fun_facts", "section": "FS1", "index": 0} },
附加字段说明
message: 包含每个对话轮次的片段列表。segmented_annotations: 每个对话轮次中每个片段的标注列表。da: 与片段响应相关的地面真实对话行为。gt_ks: 与片段响应相关的地面真实知识句。ds: 知识来源(wiki、fun_facts 或 article)。fun_facts:section: 包含趣味事实的章节,例如 FS1。index: 趣味事实列表中的元素索引。
wiki:section: 包含维基百科句子的章节,例如 FS2。start_index: 文章中句子起始字符的索引。end_index: 文章中句子结束字符的索引。
article:section: 文章的章节,例如 AS4。start_index: 文章中句子起始字符的索引。end_index: 文章中句子结束字符的索引。
gt_turn_ks: 与对话轮次相关的地面真实知识句。



