ariel-ml/hun-sum-chatml-5k
收藏Hugging Face2024-05-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ariel-ml/hun-sum-chatml-5k
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- hu
dataset_info:
features:
- name: uuid
dtype: string
- name: title
dtype: string
- name: lead
dtype: string
- name: article
dtype: string
- name: domain
dtype: string
- name: url
dtype: string
- name: date_of_creation
dtype: timestamp[ns]
- name: tags
sequence: string
- name: text
dtype: string
splits:
- name: train
num_bytes: 32496003
num_examples: 5000
- name: validation
num_bytes: 1359484
num_examples: 200
- name: test
num_bytes: 1326525
num_examples: 200
download_size: 22702475
dataset_size: 35182012
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
语言:
- 匈牙利语(Hungarian)
数据集信息:
特征:
- 名称: 通用唯一识别码(Universally Unique Identifier, UUID)
数据类型: 字符串(string)
- 名称: 标题(title)
数据类型: 字符串
- 名称: 导语(lead)
数据类型: 字符串
- 名称: 文章正文(article)
数据类型: 字符串
- 名称: 域名(domain)
数据类型: 字符串
- 名称: 统一资源定位符(Uniform Resource Locator, URL)
数据类型: 字符串
- 名称: 创建日期(date_of_creation)
数据类型: 纳秒级时间戳(timestamp[ns])
- 名称: 标签(tags)
数据类型: 字符串序列(sequence: string)
- 名称: 文本(text)
数据类型: 字符串
划分集:
- 名称: 训练集(train)
字节数: 32496003
样本数: 5000
- 名称: 验证集(validation)
字节数: 1359484
样本数: 200
- 名称: 测试集(test)
字节数: 1326525
样本数: 200
下载大小: 22702475
数据集总大小: 35182012
配置:
- 配置名称: 默认配置(default)
数据文件:
- 划分集: 训练集
路径: data/train-*
- 划分集: 验证集
路径: data/validation-*
- 划分集: 测试集
路径: data/test-*
提供机构:
ariel-ml
原始信息汇总
数据集概述
数据集特征
- uuid:字符串类型
- title:字符串类型
- lead:字符串类型
- article:字符串类型
- domain:字符串类型
- url:字符串类型
- date_of_creation:时间戳类型,单位为纳秒
- tags:字符串序列类型
- text:字符串类型
数据集划分
- 训练集:
- 示例数量:5000
- 数据大小:32496003字节
- 验证集:
- 示例数量:200
- 数据大小:1359484字节
- 测试集:
- 示例数量:200
- 数据大小:1326525字节
数据集大小
- 下载大小:22702475字节
- 数据集总大小:35182012字节
配置信息
- 默认配置:
- 训练数据路径:
data/train-* - 验证数据路径:
data/validation-* - 测试数据路径:
data/test-*
- 训练数据路径:



