xaviviro/oasst2_euskera

Name: xaviviro/oasst2_euskera
Creator: xaviviro
Published: 2024-01-07 11:29:13
License: 暂无描述

Hugging Face2024-01-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/xaviviro/oasst2_euskera

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种特征，如消息ID、用户ID、创建日期、文本内容、角色、语言等，并包括结构化数据如detoxify分析结果和表情符号使用情况。数据集分为训练集和验证集，适用于处理和分析文本数据，特别是涉及语言和内容分析的任务。数据集遵循Apache-2.0许可证，主要使用Euskera语言。

提供机构：

xaviviro

原始信息汇总

数据集概述

message_id: 字符串类型
parent_id: 字符串类型
user_id: 字符串类型
created_date: 字符串类型
text: 字符串类型
role: 字符串类型
lang: 字符串类型
review_count: 64位整数类型
review_result: 布尔类型
deleted: 布尔类型
rank: 64位浮点数类型
synthetic: 布尔类型
model_name: null类型
detoxify: 结构体类型，包含以下字段：
- identity_attack: 64位浮点数类型
- insult: 64位浮点数类型
- obscene: 64位浮点数类型
- severe_toxicity: 64位浮点数类型
- sexual_explicit: 64位浮点数类型
- threat: 64位浮点数类型
- toxicity: 64位浮点数类型
message_tree_id: 字符串类型
tree_state: 字符串类型
emojis: 结构体类型，包含以下字段：
- count: 整数序列类型
- name: 字符串序列类型
labels: 结构体类型，包含以下字段：
- count: 整数序列类型
- name: 字符串序列类型
- value: 浮点数序列类型

default 配置包含以下数据文件：
- validation: 路径为 data/validation-*
- train: 路径为 data/train-*