five

agicorp/TchatEnh

收藏
Hugging Face2024-03-23 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/agicorp/TchatEnh
下载链接
链接失效反馈
官方服务:
资源简介:
Enriched Topical-Chat数据集是对Topical-Chat的增强版本,包含了对话行为和知识句子的注释。每个注释都是使用现成的模型自动生成的。数据集中的每个对话都有对应的知识句子集,并且通过计算TFIDF向量和余弦相似度来选择最相关的知识句子。此外,对话行为注释是通过一个现成的SVM对话行为标注器生成的。数据集以JSON格式存储,包含了对话的详细信息、对话行为注释和知识句子注释。

Enriched Topical-Chat数据集是对Topical-Chat的增强版本,包含了对话行为和知识句子的注释。每个注释都是使用现成的模型自动生成的。数据集中的每个对话都有对应的知识句子集,并且通过计算TFIDF向量和余弦相似度来选择最相关的知识句子。此外,对话行为注释是通过一个现成的SVM对话行为标注器生成的。数据集以JSON格式存储,包含了对话的详细信息、对话行为注释和知识句子注释。
提供机构:
agicorp
原始信息汇总

Enriched Topical-Chat 数据集概述

数据集描述

Enriched Topical-Chat 是 Topical-Chat 数据集的一个增强版本,包含了对话行为和知识句子标注。每个标注都是使用现成的模型自动完成的。

知识句子标注

每个对话都有一个阅读集,包含一组知识句子。对于 Topical-Chat 数据集中的每个对话轮次和知识句子,我们计算了 TFIDF 向量,并计算了对话轮次与知识句子之间的余弦相似度,选择相似度最高的知识句子。在新版本的数据集中,每个对话轮次都会展示选定的知识句子及其相似度得分。

对话行为标注

我们通过运行一个现成的 SVM 对话行为标记器来获取每个对话轮次的对话行为。该标记器是在五个数据集(Switchboard、Oasis BT、Maptask、VerbMobil2、AMI)上训练的。

数据格式

数据集托管在 s3 上,可以通过以下命令下载:

wget https://enriched-topical-chat.s3.amazonaws.com/train.json wget https://enriched-topical-chat.s3.amazonaws.com/valid_freq.json wget https://enriched-topical-chat.s3.amazonaws.com/valid_rare.json wget https://enriched-topical-chat.s3.amazonaws.com/test_freq.json wget https://enriched-topical-chat.s3.amazonaws.com/test_rare.json

每个 .json 文件的格式如下: json { "t_d004c097-424d-45d4-8f91-833d85c2da31": { "article_url": "<link to washington post article>", "config": "C", "content": [ { "message": ["Did you know that the University of Iowas locker room is painted pink?", "I wonder why?"], "agent": "agent_1", "segmented_annotations": [ { "da": "PropQ", "gt_ks": {"score": 0.73,"ds": "wiki", "section": "FS1", "start_index": 0, "end_index": 100}, }, { "da": "ChoiceQ", "gt_ks": {"score": 0.0, "ds": "article", "section": "AS4", "start_index": 0, "end_index": 100}, } ], "gt_turn_ks": {"score": 0.67, "ds": "fun_facts", "section": "FS1", "index": 0} } ] } }

标注字段说明

  • message: 包含每个对话轮次的片段列表。
  • segmented_annotations: 每个对话轮次中每个片段的标注列表。
    • da: 与片段响应相关的对话行为。
    • gt_ks: 与片段响应相关的知识句子标注。
      • ds: 知识来源(wiki、fun_facts 或 article)。
      • section: 知识句子所在的段落。
      • start_index: 句子在文章中的起始字符索引。
      • end_index: 句子在文章中的结束字符索引。
  • gt_turn_ks: 与对话轮次相关的知识句子标注。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作