jganzabalseenka/stop_phrases_by_asset_with_186157_assets
收藏Hugging Face2024-06-28 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/jganzabalseenka/stop_phrases_by_asset_with_186157_assets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征字段,包括asset_id、terms(包含stats和stop_phrase)、total_stop_phrases和__index_level_0__。其中,terms字段是一个列表,包含stats和stop_phrase两个子字段,stats字段进一步包含doc_freq、score、term_freq、tokens和ttf等子字段。数据集被分割为train部分,包含186,157个样本,总大小为127,787,426字节。
The dataset includes multiple feature fields such as asset_id, terms (containing stats and stop_phrase), total_stop_phrases, and __index_level_0__. The terms field is a list containing two subfields: stats and stop_phrase, with the stats field further including subfields such as doc_freq, score, term_freq, tokens, and ttf. The dataset is split into a train portion, containing 186,157 samples with a total size of 127,787,426 bytes.
提供机构:
jganzabalseenka
原始信息汇总
数据集概述
数据集信息
特征
- asset_id: 数据类型为
int64。 - terms: 包含以下子特征:
- stats: 包含以下子特征:
- doc_freq: 数据类型为
int64。 - score: 数据类型为
float64。 - term_freq: 数据类型为
int64。 - tokens: 包含以下子特征:
- end_offset: 数据类型为
int64。 - position: 数据类型为
int64。 - start_offset: 数据类型为
int64。
- end_offset: 数据类型为
- ttf: 数据类型为
int64。
- doc_freq: 数据类型为
- stop_phrase: 数据类型为
string。
- stats: 包含以下子特征:
- total_stop_phrases: 数据类型为
int64。 - index_level_0: 数据类型为
int64。
数据分割
- train: 包含 186157 个样本,占用 127787426 字节。
数据集大小
- 下载大小: 34145172 字节。
- 数据集大小: 127787426 字节。
配置
- default: 包含
train分割的数据文件路径为data/train-*。



