jganzabalseenka/stop_phrases_by_asset_with_186157_assets

Name: jganzabalseenka/stop_phrases_by_asset_with_186157_assets
Creator: jganzabalseenka
Published: 2024-06-28 23:43:50
License: 暂无描述

Hugging Face2024-06-28 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/jganzabalseenka/stop_phrases_by_asset_with_186157_assets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征字段，包括asset_id、terms（包含stats和stop_phrase）、total_stop_phrases和__index_level_0__。其中，terms字段是一个列表，包含stats和stop_phrase两个子字段，stats字段进一步包含doc_freq、score、term_freq、tokens和ttf等子字段。数据集被分割为train部分，包含186,157个样本，总大小为127,787,426字节。

The dataset includes multiple feature fields such as asset_id, terms (containing stats and stop_phrase), total_stop_phrases, and __index_level_0__. The terms field is a list containing two subfields: stats and stop_phrase, with the stats field further including subfields such as doc_freq, score, term_freq, tokens, and ttf. The dataset is split into a train portion, containing 186,157 samples with a total size of 127,787,426 bytes.

提供机构：

jganzabalseenka

原始信息汇总

数据集概述

数据集信息

特征

asset_id: 数据类型为 int64。
terms: 包含以下子特征：
- stats: 包含以下子特征：
  - doc_freq: 数据类型为 int64。
  - score: 数据类型为 float64。
  - term_freq: 数据类型为 int64。
  - tokens: 包含以下子特征：
    - end_offset: 数据类型为 int64。
    - position: 数据类型为 int64。
    - start_offset: 数据类型为 int64。
  - ttf: 数据类型为 int64。
- stop_phrase: 数据类型为 string。
total_stop_phrases: 数据类型为 int64。
index_level_0: 数据类型为 int64。

数据分割

train: 包含 186157 个样本，占用 127787426 字节。

数据集大小

下载大小: 34145172 字节。
数据集大小: 127787426 字节。

配置

default: 包含 train 分割的数据文件路径为 data/train-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集