Conversational-Reasoning/Topical-Chat-Enriched

Name: Conversational-Reasoning/Topical-Chat-Enriched
Creator: Conversational-Reasoning
Published: 2023-12-22 16:41:14
License: 暂无描述

Hugging Face2023-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Conversational-Reasoning/Topical-Chat-Enriched

下载链接

链接失效反馈

官方服务：

资源简介：

Enriched Topical-Chat数据集是对Topical-Chat的增强版本，包含了对话行为和知识句子的注释。每个注释都是使用现成的模型自动标注的。数据集中的每个对话都有对应的阅读集，包含一组知识句子。对于每个对话轮次和知识句子，计算了TFIDF向量，并通过余弦相似度选择了最相关的知识句子。此外，还使用了现成的SVM对话行为标注器来获取每个轮次的对话行为。数据集的构建需要先构建原始数据集和阅读集，数据以JSON格式存储，包含了对话内容、对话行为注释和知识句子注释等信息。

提供机构：

Conversational-Reasoning

原始信息汇总

Enriched Topical-Chat: 对话行为和知识句标注的版本

Enriched Topical-Chat 是 Topical-Chat 的一个增强版本，包含对话行为和知识句的标注。每个标注都是使用现成的模型自动完成的。

知识句标注

Topical-Chat 中的每个对话都有一个阅读集，包含一组知识句。对于 Topical-Chat 数据集中的每个对话轮次和知识句，我们计算了 TFIDF 向量，然后计算对话轮次和知识句之间的余弦相似度，并选择相似度最高的知识句。在新版本的数据发布中，每个对话轮次都会展示选定的知识句及其相似度分数。

对话行为标注

我们通过运行一个现成的 SVM 对话行为标记器来获取每个对话轮次的对话行为，该标记器是在五个数据集（Switchboard, Oasis BT, Maptask, VerbMobil2, AMI）上训练的。

数据格式

每个 .json 文件包含以下格式：

json { "t_d004c097-424d-45d4-8f91-833d85c2da31": { "article_url": "<link to washington post article>", "config": "C", "content": [ { "message": ["Did you know that the University of Iowas locker room is painted pink?", "I wonder why?"], "agent": "agent_1", "segmented_annotations": [ { "da": "PropQ", "gt_ks": {"score": 0.73,"ds": "wiki", "section": "FS1", "start_index": 0, "end_index": 100}, }, { "da": "ChoiceQ", "gt_ks": {"score": 0.0, "ds": "article", "section": "AS4", "start_index": 0, "end_index": 100}, } ], "gt_turn_ks": {"score": 0.67, "ds": "fun_facts", "section": "FS1", "index": 0} },

附加字段说明

message: 包含每个对话轮次的片段列表。
segmented_annotations: 每个对话轮次中每个片段的标注列表。
- da: 与片段响应相关的地面真实对话行为。
- gt_ks: 与片段响应相关的地面真实知识句。
  - ds: 知识来源（wiki、fun_facts 或 article）。
    - fun_facts:
      - section: 包含趣味事实的章节，例如 FS1。
      - index: 趣味事实列表中的元素索引。
    - wiki:
      - section: 包含维基百科句子的章节，例如 FS2。
      - start_index: 文章中句子起始字符的索引。
      - end_index: 文章中句子结束字符的索引。
    - article:
      - section: 文章的章节，例如 AS4。
      - start_index: 文章中句子起始字符的索引。
      - end_index: 文章中句子结束字符的索引。
gt_turn_ks: 与对话轮次相关的地面真实知识句。

5,000+

优质数据集

54 个

任务类型

进入经典数据集