kanak8278/focus_persona_selection
收藏Hugging Face2023-04-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kanak8278/focus_persona_selection
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: dialogID
dtype: string
- name: utterance
dtype: int64
- name: old_hit_knowledge
dtype: string
- name: old_query
dtype: string
- name: label
dtype: int64
- name: persona1
dtype: string
- name: persona2
dtype: string
- name: persona3
dtype: string
- name: persona4
dtype: string
- name: persona5
dtype: string
- name: persona6
dtype: string
- name: ground_knowledge
dtype: string
- name: query
dtype: string
- name: hit_knowledge
dtype: string
- name: persona_candidates
dtype: string
- name: persona_grounding
dtype: string
splits:
- name: test
num_bytes: 11122674
num_examples: 8644
- name: validation
num_bytes: 11162186
num_examples: 8641
- name: train
num_bytes: 72558975
num_examples: 55658
download_size: 42539563
dataset_size: 94843835
---
# Dataset Card for "focus_persona_selection"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
## 数据集信息
### 特征字段:
- 名称:dialogID(对话ID),数据类型:字符串(string)
- 名称:utterance(话语序号),数据类型:64位整数(int64)
- 名称:old_hit_knowledge(历史匹配知识),数据类型:字符串(string)
- 名称:old_query(历史查询语句),数据类型:字符串(string)
- 名称:label(标签),数据类型:64位整数(int64)
- 名称:persona1(人设1),数据类型:字符串(string)
- 名称:persona2(人设2),数据类型:字符串(string)
- 名称:persona3(人设3),数据类型:字符串(string)
- 名称:persona4(人设4),数据类型:字符串(string)
- 名称:persona5(人设5),数据类型:字符串(string)
- 名称:persona6(人设6),数据类型:字符串(string)
- 名称:ground_knowledge(基准知识),数据类型:字符串(string)
- 名称:query(查询语句),数据类型:字符串(string)
- 名称:hit_knowledge(匹配知识),数据类型:字符串(string)
- 名称:persona_candidates(候选人设集合),数据类型:字符串(string)
- 名称:persona_grounding(人设基准标注),数据类型:字符串(string)
### 数据集划分:
- 测试集(test):字节大小11122674,样本量8644
- 验证集(validation):字节大小11162186,样本量8641
- 训练集(train):字节大小72558975,样本量55658
整体数据集下载大小为42539563字节,总存储大小为94843835字节
---
# 「focus_persona_selection」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
kanak8278
原始信息汇总
数据集概述
数据集名称
- 名称: focus_persona_selection
数据集特征
- 特征列表:
- dialogID: 字符串类型
- utterance: 整数类型
- old_hit_knowledge: 字符串类型
- old_query: 字符串类型
- label: 整数类型
- persona1 - persona6: 字符串类型
- ground_knowledge: 字符串类型
- query: 字符串类型
- hit_knowledge: 字符串类型
- persona_candidates: 字符串类型
- persona_grounding: 字符串类型
数据集分割
- 分割详情:
- 训练集:
- 大小: 72558975 字节
- 示例数: 55658
- 验证集:
- 大小: 11162186 字节
- 示例数: 8641
- 测试集:
- 大小: 11122674 字节
- 示例数: 8644
- 训练集:
数据集大小
- 下载大小: 42539563 字节
- 数据集总大小: 94843835 字节
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于对话系统人物选择的NLP数据集,包含约7.3万行对话数据,涵盖多个地点相关的问答交互。数据集特点包括:提供多个人物设定候选和真实知识背景,支持训练、验证和测试分割,适用于个性化对话生成或人物选择任务的研究和开发。
以上内容由遇见数据集搜集并总结生成



