agicorp/TchatEnh
收藏Enriched Topical-Chat 数据集概述
数据集描述
Enriched Topical-Chat 是 Topical-Chat 数据集的一个增强版本,包含了对话行为和知识句子标注。每个标注都是使用现成的模型自动完成的。
知识句子标注
每个对话都有一个阅读集,包含一组知识句子。对于 Topical-Chat 数据集中的每个对话轮次和知识句子,我们计算了 TFIDF 向量,并计算了对话轮次与知识句子之间的余弦相似度,选择相似度最高的知识句子。在新版本的数据集中,每个对话轮次都会展示选定的知识句子及其相似度得分。
对话行为标注
我们通过运行一个现成的 SVM 对话行为标记器来获取每个对话轮次的对话行为。该标记器是在五个数据集(Switchboard、Oasis BT、Maptask、VerbMobil2、AMI)上训练的。
数据格式
数据集托管在 s3 上,可以通过以下命令下载:
wget https://enriched-topical-chat.s3.amazonaws.com/train.json wget https://enriched-topical-chat.s3.amazonaws.com/valid_freq.json wget https://enriched-topical-chat.s3.amazonaws.com/valid_rare.json wget https://enriched-topical-chat.s3.amazonaws.com/test_freq.json wget https://enriched-topical-chat.s3.amazonaws.com/test_rare.json
每个 .json 文件的格式如下: json { "t_d004c097-424d-45d4-8f91-833d85c2da31": { "article_url": "<link to washington post article>", "config": "C", "content": [ { "message": ["Did you know that the University of Iowas locker room is painted pink?", "I wonder why?"], "agent": "agent_1", "segmented_annotations": [ { "da": "PropQ", "gt_ks": {"score": 0.73,"ds": "wiki", "section": "FS1", "start_index": 0, "end_index": 100}, }, { "da": "ChoiceQ", "gt_ks": {"score": 0.0, "ds": "article", "section": "AS4", "start_index": 0, "end_index": 100}, } ], "gt_turn_ks": {"score": 0.67, "ds": "fun_facts", "section": "FS1", "index": 0} } ] } }
标注字段说明
message: 包含每个对话轮次的片段列表。segmented_annotations: 每个对话轮次中每个片段的标注列表。da: 与片段响应相关的对话行为。gt_ks: 与片段响应相关的知识句子标注。ds: 知识来源(wiki、fun_facts 或 article)。section: 知识句子所在的段落。start_index: 句子在文章中的起始字符索引。end_index: 句子在文章中的结束字符索引。
gt_turn_ks: 与对话轮次相关的知识句子标注。



