five

jganzabalseenka/noun_phrases_elastic_2024-05-01_2024-05-30

收藏
Hugging Face2024-07-01 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/jganzabalseenka/noun_phrases_elastic_2024-05-01_2024-05-30
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个字段,主要涉及名词短语(noun_phrase)、计数(count)、首词(first_word)、总词数(total_words)、尾词(last_words)、标准化形式(normalized)、是否带重音(with_accents)等。数据集分为训练集,包含648,253个样本,总大小为66,952,109字节。这些字段可能用于自然语言处理任务,如文本分析、语言模型训练等。

This dataset is primarily used for natural language processing tasks, featuring various text analysis-related features such as noun phrases, counts, first words, total words, last words, normalized forms, and whether they include accents. The dataset is divided into a training set with 648253 samples, totaling 66952109 bytes. The download size of the dataset is 33910808 bytes.
提供机构:
jganzabalseenka
原始信息汇总

数据集概述

数据集特征

  • noun_phrase: 名词短语,数据类型为字符串。
  • count: 计数,数据类型为整数。
  • first_word: 第一个词,数据类型为字符串。
  • total_words: 总词数,数据类型为整数。
  • last_words: 最后一个词,数据类型为字符串。
  • normalized: 标准化,数据类型为字符串。
  • with_accents: 带重音,数据类型为布尔值。
  • index_level_0: 索引级别0,数据类型为整数。

数据集分割

  • train: 训练集,包含648,253个样本,占用66,952,109字节。

数据集大小

  • 下载大小: 33,910,808字节
  • 数据集大小: 66,952,109字节

配置

  • default: 默认配置,包含训练集数据文件路径为data/train-*
二维码
社区交流群
二维码
科研交流群
商业服务