Finnish-NLP/wikipedia_synthetic_person_discussions_multiturn

Name: Finnish-NLP/wikipedia_synthetic_person_discussions_multiturn
Creator: Finnish-NLP
Published: 2024-12-11 22:09:25
License: 暂无描述

Hugging Face2024-12-11 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/Finnish-NLP/wikipedia_synthetic_person_discussions_multiturn

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字段，如文章标题、人物、人物描述、文章文本、讨论内容、消息列表等。数据集分为训练集，包含1014个样本，总大小为7738178字节。

This dataset is primarily used for text analysis, featuring multiple characteristics such as article titles, persons, person descriptions, article text, discussions, message content, and roles. The dataset is divided into a training set, containing 1014 samples, with a dataset size of 7738178 bytes and a download size of 4415727 bytes.

提供机构：

Finnish-NLP

原始信息汇总

数据集概述

数据集信息

特征

article_title: 文章标题，数据类型为字符串。
person: 人物名称，数据类型为字符串。
person_description: 人物描述，数据类型为字符串。
article_text: 文章内容，数据类型为字符串。
discussion: 讨论内容，数据类型为字符串序列。
index_level_0: 索引级别0，数据类型为整数。
messages: 消息列表，包含以下子特征：
- content: 消息内容，数据类型为字符串。
- role: 消息角色，数据类型为字符串。
message_length: 消息长度，数据类型为整数。

数据分割

train: 训练集，包含1014个样本，总字节数为7738178。

数据集大小

下载大小: 4415727字节
数据集大小: 7738178字节

配置

default: 默认配置，包含训练集数据文件路径为data/train-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集