five

Conversational-Reasoning/Topical-Chat-Enriched

收藏
Hugging Face2023-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Conversational-Reasoning/Topical-Chat-Enriched
下载链接
链接失效反馈
官方服务:
资源简介:
Enriched Topical-Chat数据集是对Topical-Chat的增强版本,包含了对话行为和知识句子的注释。每个注释都是使用现成的模型自动标注的。数据集中的每个对话都有对应的阅读集,包含一组知识句子。对于每个对话轮次和知识句子,计算了TFIDF向量,并通过余弦相似度选择了最相关的知识句子。此外,还使用了现成的SVM对话行为标注器来获取每个轮次的对话行为。数据集的构建需要先构建原始数据集和阅读集,数据以JSON格式存储,包含了对话内容、对话行为注释和知识句子注释等信息。

Enriched Topical-Chat数据集是对Topical-Chat的增强版本,包含了对话行为和知识句子的注释。每个注释都是使用现成的模型自动标注的。数据集中的每个对话都有对应的阅读集,包含一组知识句子。对于每个对话轮次和知识句子,计算了TFIDF向量,并通过余弦相似度选择了最相关的知识句子。此外,还使用了现成的SVM对话行为标注器来获取每个轮次的对话行为。数据集的构建需要先构建原始数据集和阅读集,数据以JSON格式存储,包含了对话内容、对话行为注释和知识句子注释等信息。
提供机构:
Conversational-Reasoning
原始信息汇总

Enriched Topical-Chat: 对话行为和知识句标注的版本

Enriched Topical-Chat 是 Topical-Chat 的一个增强版本,包含对话行为和知识句的标注。每个标注都是使用现成的模型自动完成的。

知识句标注

Topical-Chat 中的每个对话都有一个阅读集,包含一组知识句。对于 Topical-Chat 数据集中的每个对话轮次和知识句,我们计算了 TFIDF 向量,然后计算对话轮次和知识句之间的余弦相似度,并选择相似度最高的知识句。在新版本的数据发布中,每个对话轮次都会展示选定的知识句及其相似度分数。

对话行为标注

我们通过运行一个现成的 SVM 对话行为标记器来获取每个对话轮次的对话行为,该标记器是在五个数据集(Switchboard, Oasis BT, Maptask, VerbMobil2, AMI)上训练的。

数据格式

每个 .json 文件包含以下格式:

json { "t_d004c097-424d-45d4-8f91-833d85c2da31": { "article_url": "<link to washington post article>", "config": "C", "content": [ { "message": ["Did you know that the University of Iowas locker room is painted pink?", "I wonder why?"], "agent": "agent_1", "segmented_annotations": [ { "da": "PropQ", "gt_ks": {"score": 0.73,"ds": "wiki", "section": "FS1", "start_index": 0, "end_index": 100}, }, { "da": "ChoiceQ", "gt_ks": {"score": 0.0, "ds": "article", "section": "AS4", "start_index": 0, "end_index": 100}, } ], "gt_turn_ks": {"score": 0.67, "ds": "fun_facts", "section": "FS1", "index": 0} },

附加字段说明

  • message: 包含每个对话轮次的片段列表。
  • segmented_annotations: 每个对话轮次中每个片段的标注列表。
    • da: 与片段响应相关的地面真实对话行为。
    • gt_ks: 与片段响应相关的地面真实知识句。
      • ds: 知识来源(wiki、fun_facts 或 article)。
        • fun_facts:
          • section: 包含趣味事实的章节,例如 FS1。
          • index: 趣味事实列表中的元素索引。
        • wiki:
          • section: 包含维基百科句子的章节,例如 FS2。
          • start_index: 文章中句子起始字符的索引。
          • end_index: 文章中句子结束字符的索引。
        • article:
          • section: 文章的章节,例如 AS4。
          • start_index: 文章中句子起始字符的索引。
          • end_index: 文章中句子结束字符的索引。
  • gt_turn_ks: 与对话轮次相关的地面真实知识句。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作