julia-lukasiewicz-pater/small-GPT-wiki-intro-features
收藏Hugging Face2023-06-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/julia-lukasiewicz-pater/small-GPT-wiki-intro-features
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于aadityaubhat/GPT-wiki-intro,包含10万条随机选择的文本(5万条来自维基百科,5万条由ChatGPT生成)。每条文本都计算了多种复杂性度量,如可读性、词汇丰富度等。数据集可用于文本分类或分析人类生成和ChatGPT生成文本的语言特征。数据集的结构包括使用的Python库和计算的各种特征,如NLTK、readability-metrics、lexical-diversity和TextDescriptives等。
该数据集基于aadityaubhat/GPT-wiki-intro,包含10万条随机选择的文本(5万条来自维基百科,5万条由ChatGPT生成)。每条文本都计算了多种复杂性度量,如可读性、词汇丰富度等。数据集可用于文本分类或分析人类生成和ChatGPT生成文本的语言特征。数据集的结构包括使用的Python库和计算的各种特征,如NLTK、readability-metrics、lexical-diversity和TextDescriptives等。
提供机构:
julia-lukasiewicz-pater
原始信息汇总
数据集概述
数据集名称
- Small-GPT-wiki-intro-features
数据集来源
数据集内容
- 包含100,000条文本,其中50,000条来自Wikipedia,50,000条由ChatGPT生成。
- 每条文本计算了多种复杂度指标,如可读性、词汇丰富度等。
数据集用途
- 用于文本分类或分析人类生成文本与ChatGPT生成文本的语义特征。
数据集结构
| 列名 | 描述 |
|---|---|
| text | 人类或ChatGPT生成的文本 |
| normalized_bigram_entropy | 归一化双字词熵 |
| mean_word_length | 平均单词长度 |
| mean_sent_length | 平均句子长度 |
| fog | Gunning-Fog指数 |
| ari | 自动可读性指数 |
| dale_chall | Dale Chall可读性 |
| hdd | 超几何分布 |
| mtld | 词汇文本多样性度量 |
| mattr | 移动平均类型-标记比 |
| number_of_ADJ | 形容词比例 |
| number_of_ADP | 介词比例 |
| number_of_ADV | 副词比例 |
| number_of_CONJ | 连词比例 |
| number_of_DET | 限定词比例 |
| number_of_NOUN | 名词比例 |
| number_of_NUM | 数字比例 |
| number_of_PRT | 小品词比例 |
| number_of_PRON | 代词比例 |
| number_of_VERB | 动词比例 |
| number_of_DOT | 标点符号比例 |
| number_of_X | 其他POS标记比例 |
| class | 类别(0: Wikipedia, 1: ChatGPT) |
| spacy_perplexity | 文本困惑度 |
| entropy | 文本熵 |
| automated_readability_index | 自动可读性指数 |
| per_word_spacy_perplexity | 每单词的文本困惑度 |
| dependency_distance_mean | 依赖距离平均值 |
| dependency_distance_std | 依赖距离标准差 |
| first_order_coherence | 一阶连贯性 |
| second_order_coherence | 二阶连贯性 |
| smog | SMOG指数 |
| prop_adjacent_dependency_relation_mean | 相邻依赖关系比例平均值 |
| prop_adjacent_dependency_relation_std | 相邻依赖关系比例标准差 |
| syllables_per_token_mean | 每标记音节平均值 |
| syllables_per_token_median | 每标记音节中位数 |
| token_length_std | 标记长度标准差 |
| token_length_median | 标记长度中位数 |
| sentence_length_median | 句子长度中位数 |
| syllables_per_token_std | 每标记音节标准差 |
| proportion_unique_tokens | 唯一标记比例 |
| top_ngram_chr_fraction_3 | 前三元组字符比例 |
| top_ngram_chr_fraction_2 | 前二元组字符比例 |
| top_ngram_chr_fraction_4 | 前四元组字符比例 |
| proportion_bullet_points | 项目点比例 |
| flesch_reading_ease | Flesch阅读易度 |
| flesch_kincaid_grade | Flesch Kincaid等级 |
| gunning_fog | Gunning-Fog指数 |
| coleman_liau_index | Coleman-Liau指数 |
| oov_ratio | 超出词汇比例 |
数据集特征计算工具
- NLTK
- readability-metrics
- lexical-diversity
- TextDescriptives



