kienlc1/T5_train_uni_fix_heur_filter
收藏Hugging Face2024-06-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/kienlc1/T5_train_uni_fix_heur_filter
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: score_non_alphanum
dtype: float64
- name: score_emoji_icon
dtype: float64
- name: score_number
dtype: float64
- name: score_url
dtype: float64
- name: score_bullet
dtype: float64
- name: score_white_space
dtype: float64
- name: score_parenthesis
dtype: float64
- name: max_len_long_word
dtype: int64
- name: number_of_words
dtype: int64
- name: mean_word_len
dtype: float64
- name: score_repeated_line
dtype: float64
- name: score_repeated_para
dtype: float64
- name: score_repeated_sentence_bychar
dtype: float64
- name: score_repeated_graph_bychar
dtype: float64
- name: score_repeated_ngram
dtype: float64
- name: score_repeating_duplicate_ngram
dtype: float64
- name: score_end_ellipsis
dtype: float64
- name: score_common_vietnames_word
dtype: int64
- name: score_alpha
dtype: float64
- name: ban_word_counter
dtype: int64
splits:
- name: train
num_bytes: 1166939353
num_examples: 265233
download_size: 450448376
dataset_size: 1166939353
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征字段:
- 特征名:文本(text),数据类型:字符串型
- 特征名:非字母数字得分(score_non_alphanum),数据类型:64位浮点型
- 特征名:表情图标得分(score_emoji_icon),数据类型:64位浮点型
- 特征名:数字得分(score_number),数据类型:64位浮点型
- 特征名:链接得分(score_url),数据类型:64位浮点型
- 特征名:项目符号得分(score_bullet),数据类型:64位浮点型
- 特征名:空白字符得分(score_white_space),数据类型:64位浮点型
- 特征名:括号得分(score_parenthesis),数据类型:64位浮点型
- 特征名:最长单词长度(max_len_long_word),数据类型:64位整型
- 特征名:单词总数(number_of_words),数据类型:64位整型
- 特征名:单词平均长度(mean_word_len),数据类型:64位浮点型
- 特征名:重复行得分(score_repeated_line),数据类型:64位浮点型
- 特征名:重复段落得分(score_repeated_para),数据类型:64位浮点型
- 特征名:逐字符匹配重复句子得分(score_repeated_sentence_bychar),数据类型:64位浮点型
- 特征名:逐字符重复文本图形得分(score_repeated_graph_bychar),数据类型:64位浮点型
- 特征名:N元语法重复得分(score_repeated_ngram),数据类型:64位浮点型
- 特征名:冗余重复N元语法得分(score_repeating_duplicate_ngram),数据类型:64位浮点型
- 特征名:结尾省略号得分(score_end_ellipsis),数据类型:64位浮点型
- 特征名:越南语常用词得分(score_common_vietnames_word),数据类型:64位整型
- 特征名:字母字符得分(score_alpha),数据类型:64位浮点型
- 特征名:违禁词计数(ban_word_counter),数据类型:64位整型
数据集划分:
- 划分集名称:训练集(train),字节占用量:1166939353,样本总数:265233
下载大小:450448376
数据集总大小:1166939353
配置项:
- 配置名称:默认配置(default),数据文件:
- 划分集:训练集(train),存储路径:data/train-*
提供机构:
kienlc1
原始信息汇总
数据集概述
数据集特征
- text:字符串类型
- score_non_alphanum:浮点数类型
- score_emoji_icon:浮点数类型
- score_number:浮点数类型
- score_url:浮点数类型
- score_bullet:浮点数类型
- score_white_space:浮点数类型
- score_parenthesis:浮点数类型
- max_len_long_word:整数类型
- number_of_words:整数类型
- mean_word_len:浮点数类型
- score_repeated_line:浮点数类型
- score_repeated_para:浮点数类型
- score_repeated_sentence_bychar:浮点数类型
- score_repeated_graph_bychar:浮点数类型
- score_repeated_ngram:浮点数类型
- score_repeating_duplicate_ngram:浮点数类型
- score_end_ellipsis:浮点数类型
- score_common_vietnames_word:整数类型
- score_alpha:浮点数类型
- ban_word_counter:整数类型
数据集划分
- train:
- 字节数:1166939353
- 示例数:265233
数据集大小
- 下载大小:450448376
- 数据集大小:1166939353
配置
- config_name:default
- data_files:
- split:train
- path:data/train-*



