Finnish-NLP/OrcaAgentInstruct-dsfollowup
收藏Hugging Face2025-12-01 更新2025-10-18 收录
下载链接:
https://hf-mirror.com/datasets/Finnish-NLP/OrcaAgentInstruct-dsfollowup
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
- name: langdetect_str
dtype: string
- name: text_lang
dtype: string
- name: text_lang_proba
dtype: float64
- name: perplexity
dtype: int64
- name: suomi_suhde
dtype: float64
- name: fi_10_word_chunks
dtype: int64
- name: non_fi_10_word_chunks
dtype: int64
- name: instruction
dtype: string
- name: response
dtype: string
- name: multiturn
dtype: bool
- name: pred_Faktuaalisuus
dtype: float64
- name: pred_Ystävällisyys
dtype: float64
- name: pred_Kielellinen laatu
dtype: float64
- name: pred_Selkeys
dtype: float64
- name: pred_Erikoisluokittelu
dtype: float64
- name: pred_Informatiivisuus
dtype: float64
- name: tok_len
dtype: int64
- name: quality_raw_response
dtype: string
- name: quality_pohdinta
dtype: string
- name: quality_arvio
dtype: string
splits:
- name: train
num_bytes: 218068984
num_examples: 12797
download_size: 107450034
dataset_size: 218068984
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
数据特征:
- 名称:对话消息(messages),类型为列表,包含以下子字段:
- 名称:内容(content),数据类型:字符串
- 名称:角色(role),数据类型:字符串
- 名称:语言检测字符串(langdetect_str),数据类型:字符串
- 名称:文本语言(text_lang),数据类型:字符串
- 名称:文本语言置信度(text_lang_proba),数据类型:64位浮点数
- 名称:困惑度(perplexity),数据类型:64位整数
- 名称:芬兰语关联度(suomi_suhde),数据类型:64位浮点数
- 名称:芬兰语10词块数(fi_10_word_chunks),数据类型:64位整数
- 名称:非芬兰语10词块数(non_fi_10_word_chunks),数据类型:64位整数
- 名称:用户指令(instruction),数据类型:字符串
- 名称:模型回复(response),数据类型:字符串
- 名称:多轮对话标识(multiturn),数据类型:布尔值
- 名称:事实性预测得分(pred_Faktuaalisuus),数据类型:64位浮点数
- 名称:友好性预测得分(pred_Ystävällisyys),数据类型:64位浮点数
- 名称:语言质量预测得分(pred_Kielellinen laatu),数据类型:64位浮点数
- 名称:清晰度预测得分(pred_Selkeys),数据类型:64位浮点数
- 名称:分类特异性预测得分(pred_Erikoisluokittelu),数据类型:64位浮点数
- 名称:信息性预测得分(pred_Informatiivisuus),数据类型:64位浮点数
- 名称:Token长度(tok_len),数据类型:64位整数
- 名称:原始回复质量标注(quality_raw_response),数据类型:字符串
- 名称:反思性质量标注(quality_pohdinta),数据类型:字符串
- 名称:评估性质量标注(quality_arvio),数据类型:字符串
数据拆分:
- 名称:训练集(train),字节数:218068984,样本数量:12797
下载大小:107450034字节,数据集总大小:218068984字节
数据集配置:
- 配置名称:默认配置(default),数据文件:
- 拆分:训练集(train),路径:data/train-*
提供机构:
Finnish-NLP



