julia-lukasiewicz-pater/small-GPT-wiki-intro-features

Name: julia-lukasiewicz-pater/small-GPT-wiki-intro-features
Creator: julia-lukasiewicz-pater
Published: 2023-06-11 14:42:23
License: 暂无描述

Hugging Face2023-06-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/julia-lukasiewicz-pater/small-GPT-wiki-intro-features

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于aadityaubhat/GPT-wiki-intro，包含10万条随机选择的文本（5万条来自维基百科，5万条由ChatGPT生成）。每条文本都计算了多种复杂性度量，如可读性、词汇丰富度等。数据集可用于文本分类或分析人类生成和ChatGPT生成文本的语言特征。数据集的结构包括使用的Python库和计算的各种特征，如NLTK、readability-metrics、lexical-diversity和TextDescriptives等。

提供机构：

julia-lukasiewicz-pater

原始信息汇总

数据集概述

数据集名称

Small-GPT-wiki-intro-features

数据集来源

基于 aadityaubhat/GPT-wiki-intro。

数据集内容

包含100,000条文本，其中50,000条来自Wikipedia，50,000条由ChatGPT生成。
每条文本计算了多种复杂度指标，如可读性、词汇丰富度等。

数据集用途

用于文本分类或分析人类生成文本与ChatGPT生成文本的语义特征。

数据集结构

列名	描述
text	人类或ChatGPT生成的文本
normalized_bigram_entropy	归一化双字词熵
mean_word_length	平均单词长度
mean_sent_length	平均句子长度
fog	Gunning-Fog指数
ari	自动可读性指数
dale_chall	Dale Chall可读性
hdd	超几何分布
mtld	词汇文本多样性度量
mattr	移动平均类型-标记比
number_of_ADJ	形容词比例
number_of_ADP	介词比例
number_of_ADV	副词比例
number_of_CONJ	连词比例
number_of_DET	限定词比例
number_of_NOUN	名词比例
number_of_NUM	数字比例
number_of_PRT	小品词比例
number_of_PRON	代词比例
number_of_VERB	动词比例
number_of_DOT	标点符号比例
number_of_X	其他POS标记比例
class	类别（0: Wikipedia, 1: ChatGPT）
spacy_perplexity	文本困惑度
entropy	文本熵
automated_readability_index	自动可读性指数
per_word_spacy_perplexity	每单词的文本困惑度
dependency_distance_mean	依赖距离平均值
dependency_distance_std	依赖距离标准差
first_order_coherence	一阶连贯性
second_order_coherence	二阶连贯性
smog	SMOG指数
prop_adjacent_dependency_relation_mean	相邻依赖关系比例平均值
prop_adjacent_dependency_relation_std	相邻依赖关系比例标准差
syllables_per_token_mean	每标记音节平均值
syllables_per_token_median	每标记音节中位数
token_length_std	标记长度标准差
token_length_median	标记长度中位数
sentence_length_median	句子长度中位数
syllables_per_token_std	每标记音节标准差
proportion_unique_tokens	唯一标记比例
top_ngram_chr_fraction_3	前三元组字符比例
top_ngram_chr_fraction_2	前二元组字符比例
top_ngram_chr_fraction_4	前四元组字符比例
proportion_bullet_points	项目点比例
flesch_reading_ease	Flesch阅读易度
flesch_kincaid_grade	Flesch Kincaid等级
gunning_fog	Gunning-Fog指数
coleman_liau_index	Coleman-Liau指数
oov_ratio	超出词汇比例

数据集特征计算工具

NLTK
readability-metrics
lexical-diversity
TextDescriptives

5,000+

优质数据集

54 个

任务类型

进入经典数据集