five

jganzabalseenka/stop_phrases_with_166396_assets

收藏
Hugging Face2024-06-28 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/jganzabalseenka/stop_phrases_with_166396_assets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个字段,主要涉及文本处理相关的统计信息。具体字段包括停止短语(stop_phrase)、文档频率(doc_freq)、总词频(ttf)、词频(term_freq)、词条位置信息(tokens,包含结束偏移量、位置和开始偏移量)、评分(score)和一个索引字段(__index_level_0__)。数据集包含一个训练集(train),共有18803个样本,总大小为3125806字节。

This dataset includes multiple fields related to text processing statistics. Specific fields include stop phrase (stop_phrase), document frequency (doc_freq), total term frequency (ttf), term frequency (term_freq), token position information (tokens, including end offset, position, and start offset), score (score), and an index field (__index_level_0__). The dataset contains a training set (train) with 18,803 samples, totaling 3,125,806 bytes.
提供机构:
jganzabalseenka
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作