five

julia-lukasiewicz-pater/small-GPT-wiki-intro-features

收藏
Hugging Face2023-06-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/julia-lukasiewicz-pater/small-GPT-wiki-intro-features
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于aadityaubhat/GPT-wiki-intro,包含10万条随机选择的文本(5万条来自维基百科,5万条由ChatGPT生成)。每条文本都计算了多种复杂性度量,如可读性、词汇丰富度等。数据集可用于文本分类或分析人类生成和ChatGPT生成文本的语言特征。数据集的结构包括使用的Python库和计算的各种特征,如NLTK、readability-metrics、lexical-diversity和TextDescriptives等。

该数据集基于aadityaubhat/GPT-wiki-intro,包含10万条随机选择的文本(5万条来自维基百科,5万条由ChatGPT生成)。每条文本都计算了多种复杂性度量,如可读性、词汇丰富度等。数据集可用于文本分类或分析人类生成和ChatGPT生成文本的语言特征。数据集的结构包括使用的Python库和计算的各种特征,如NLTK、readability-metrics、lexical-diversity和TextDescriptives等。
提供机构:
julia-lukasiewicz-pater
原始信息汇总

数据集概述

数据集名称

  • Small-GPT-wiki-intro-features

数据集来源

数据集内容

  • 包含100,000条文本,其中50,000条来自Wikipedia,50,000条由ChatGPT生成。
  • 每条文本计算了多种复杂度指标,如可读性、词汇丰富度等。

数据集用途

  • 用于文本分类或分析人类生成文本与ChatGPT生成文本的语义特征。

数据集结构

列名 描述
text 人类或ChatGPT生成的文本
normalized_bigram_entropy 归一化双字词熵
mean_word_length 平均单词长度
mean_sent_length 平均句子长度
fog Gunning-Fog指数
ari 自动可读性指数
dale_chall Dale Chall可读性
hdd 超几何分布
mtld 词汇文本多样性度量
mattr 移动平均类型-标记比
number_of_ADJ 形容词比例
number_of_ADP 介词比例
number_of_ADV 副词比例
number_of_CONJ 连词比例
number_of_DET 限定词比例
number_of_NOUN 名词比例
number_of_NUM 数字比例
number_of_PRT 小品词比例
number_of_PRON 代词比例
number_of_VERB 动词比例
number_of_DOT 标点符号比例
number_of_X 其他POS标记比例
class 类别(0: Wikipedia, 1: ChatGPT)
spacy_perplexity 文本困惑度
entropy 文本熵
automated_readability_index 自动可读性指数
per_word_spacy_perplexity 每单词的文本困惑度
dependency_distance_mean 依赖距离平均值
dependency_distance_std 依赖距离标准差
first_order_coherence 一阶连贯性
second_order_coherence 二阶连贯性
smog SMOG指数
prop_adjacent_dependency_relation_mean 相邻依赖关系比例平均值
prop_adjacent_dependency_relation_std 相邻依赖关系比例标准差
syllables_per_token_mean 每标记音节平均值
syllables_per_token_median 每标记音节中位数
token_length_std 标记长度标准差
token_length_median 标记长度中位数
sentence_length_median 句子长度中位数
syllables_per_token_std 每标记音节标准差
proportion_unique_tokens 唯一标记比例
top_ngram_chr_fraction_3 前三元组字符比例
top_ngram_chr_fraction_2 前二元组字符比例
top_ngram_chr_fraction_4 前四元组字符比例
proportion_bullet_points 项目点比例
flesch_reading_ease Flesch阅读易度
flesch_kincaid_grade Flesch Kincaid等级
gunning_fog Gunning-Fog指数
coleman_liau_index Coleman-Liau指数
oov_ratio 超出词汇比例

数据集特征计算工具

  • NLTK
  • readability-metrics
  • lexical-diversity
  • TextDescriptives
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作