Hieuman/u-sticker
收藏Hugging Face2025-11-22 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/Hieuman/u-sticker
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: authorIDs
dtype: string
- name: fullText
dtype: string
- name: subset
dtype: string
- name: language
dtype: string
- name: language_family
dtype: string
- name: docID
dtype: int64
- name: BM25_retrieved_docIDs
list: int64
- name: sameAuthor_docIDs
list: int64
- name: cluster
dtype: int64
splits:
- name: zh
num_bytes: 61192702
num_examples: 12259
- name: en
num_bytes: 584655619
num_examples: 114351
- name: ru
num_bytes: 57924760
num_examples: 11459
- name: ar
num_bytes: 23308551
num_examples: 4826
- name: fr
num_bytes: 22453702
num_examples: 4535
- name: de
num_bytes: 2896472
num_examples: 592
- name: vi
num_bytes: 8228652
num_examples: 1777
- name: es
num_bytes: 17566721
num_examples: 2876
download_size: 182138663
dataset_size: 778227179
configs:
- config_name: default
data_files:
- split: zh
path: data/zh-*
- split: en
path: data/en-*
- split: ru
path: data/ru-*
- split: ar
path: data/ar-*
- split: fr
path: data/fr-*
- split: de
path: data/de-*
- split: vi
path: data/vi-*
- split: es
path: data/es-*
---
数据集信息:
特征字段:
- 名称:authorIDs(作者ID),数据类型:string(字符串)
- 名称:fullText(全文内容),数据类型:string(字符串)
- 名称:subset(子集标识),数据类型:string(字符串)
- 名称:language(语言标识),数据类型:string(字符串)
- 名称:language_family(语系标识),数据类型:string(字符串)
- 名称:docID(文档ID),数据类型:int64(64位整数)
- 名称:BM25_retrieved_docIDs(BM25检索文档ID列表),列表元素类型:int64(64位整数)
- 名称:sameAuthor_docIDs(同作者文档ID列表),列表元素类型:int64(64位整数)
- 名称:cluster(聚类簇ID),数据类型:int64(64位整数)
数据拆分:
- 拆分名称:zh(中文拆分),字节占用:61192702,样本数量:12259
- 拆分名称:en(英文拆分),字节占用:584655619,样本数量:114351
- 拆分名称:ru(俄语拆分),字节占用:57924760,样本数量:11459
- 拆分名称:ar(阿拉伯语拆分),字节占用:23308551,样本数量:4826
- 拆分名称:fr(法语拆分),字节占用:22453702,样本数量:4535
- 拆分名称:de(德语拆分),字节占用:2896472,样本数量:592
- 拆分名称:vi(越南语拆分),字节占用:8228652,样本数量:1777
- 拆分名称:es(西班牙语拆分),字节占用:17566721,样本数量:2876
下载总大小:182138663
数据集总大小:778227179
配置项:
- 配置名称:default(默认配置),数据文件:
- 拆分:zh,数据路径:data/zh-*
- 拆分:en,数据路径:data/en-*
- 拆分:ru,数据路径:data/ru-*
- 拆分:ar,数据路径:data/ar-*
- 拆分:fr,数据路径:data/fr-*
- 拆分:de,数据路径:data/de-*
- 拆分:vi,数据路径:data/vi-*
- 拆分:es,数据路径:data/es-*
提供机构:
Hieuman



