editlens-scoring-data
收藏Hugging Face2026-06-30 更新2026-07-01 收录
下载链接:
https://huggingface.co/datasets/awdllt03/editlens-scoring-data
下载链接
链接失效反馈官方服务:
资源简介:
Editlens评分数据是一个用于评估AI生成文本检测器的人类写作数据集集合。该数据集整合了多个学术研究中的文本语料,包括ASAP 2.0写作质量评估语料库、博客文本(涉及年龄与性别分析)、非裔美国人英语社交媒体变体数据、Twitter通用依存分析数据、中文基础亚洲英语语料库(CCAE)、NUS SMS短信语料库以及PERSUADE 2.0议论文评估语料库。这些数据来源涵盖了多种写作风格、语言变体和文本类型,旨在为AI生成文本检测任务提供多样化的真实人类写作样本。数据集适用于文本检测、写作质量评估、语言变体分析等自然语言处理任务。
Editlens scoring data is a collection of human-written datasets for evaluating AI-generated text detectors. This dataset integrates text corpora from multiple academic studies, including the ASAP 2.0 writing quality assessment corpus, blog texts (involving age and gender analysis), African American English social media variant data, Twitter Universal Dependencies data, Chinese-based Asian English Corpus (CCAE), NUS SMS corpus, and PERSUADE 2.0 argumentative essay assessment corpus. These data sources cover various writing styles, language variants, and text types, aiming to provide diverse real human writing samples for AI-generated text detection tasks. The dataset is suitable for natural language processing tasks such as text detection, writing quality assessment, and language variant analysis.
创建时间:
2026-06-29
原始信息汇总
数据集概述
数据集名称: Editlens Scoring Data
用途: 该数据集是一个由人类撰写的文本集合,专门用于评估AI生成文本检测器的性能。
构成与来源
该数据集整合了多个公开语料库,具体引用来源包括:
- ASAP 2.0: 用于评估基于来源写作质量的大规模语料库(Crossley, 2025)。
- 博客语料: 包含年龄和性别信息的博客文本(Schler 等, 2006)。
- 社交媒体语料: 涉及非裔美国人英语的方言变体研究数据(Blodgett 等, 2016;Blodgett 等, 2018)。
- CCA语料: 基于中文的亚洲英语语料库(Liu 等, 2023)。
- NUS短信语料: 公开的实时短信息服务语料库(Chen & Kan, 2013)。
- PERSUADE 2.0: 用于评估书面论证的大规模语料库(Crossley 等, 2024)。
引用文献
所有构成该数据集的原始语料库均需引用对应的文献(详见README中的完整引用列表)。
搜集汇总
数据集介绍

构建方式
Editlens Scoring Data 是一个专为评估AI生成文本检测器性能而精心策划的数据集集合。该数据集整合了来自多个学术来源的人类写作语料库,其构建过程遵循严格的科学标准:首先,数据源涵盖ASAP 2.0中基于来源的写作质量评估语料、Blogger Corpus中按年龄与性别分类的博客文本、非洲裔美国英语社交媒体的方言变异语料、中文亚洲英语的跨国语言数据集以及NUS SMS Corpus的短信息服务语料。这些语料被系统性地汇集成一个统一的评估框架,用于对比检测AI生成文本与人类写作的判别精度。
特点
该数据集的核心特征在于其多元化的语言与内容覆盖。它不仅跨越了英语、中文及亚洲英语变体,还囊括了正式学术写作、非正式博客、社交媒体短消息等多种文体,并涉及年龄、性别、方言及种族等社会学维度。这种异质性保证了检测器评估的鲁棒性,避免了单一语域可能带来的偏见。此外,数据集中人类写作样本均源自经同行评审的学术论文或权威语料库,确保了标注的准确性与可靠性,为公正比较AI文本检测算法的泛化能力奠定了基础。
使用方法
使用者可通过Hugging Face平台直接加载本数据集,借助transformers等库调用内置的数据加载接口。在具体应用中,研究人员可将数据集划分为训练集与测试集,以监督学习的方式训练区分人类写作与AI生成文本的分类器。建议结合预训练语言模型(如BERT或RoBERTa)的嵌入表示进行微调,并在跨数据集场景下验证模型泛化性。数据集中已提供标准化的文本字段与标签,用户仅需按照README中引用的原始文献使用适当的数据预处理流程,即可快速开展实验复现或性能基准测试。
背景与挑战
背景概述
Editlens Scoring Data是一个由多个人类写作语料库构成的综合性数据集,旨在评估人工智能生成文本检测器的性能。该数据集由Scott Crossley等研究人员主导创建,融合了多个经典语料资源,包括ASAP 2.0作文质量评估语料、博客年龄与性别语料、非裔美国人英语社交媒体语料、基于中文的亚洲英语语料以及新加坡国立大学短信语料等。这些语料覆盖了学术写作、社交媒体、短信等多样化的写作场景,核心研究问题聚焦于如何利用真实人类写作数据来评测AI文本检测算法在不同语言变体、写作风格和内容类型下的泛化能力。自2025年发布以来,该数据集为自然语言处理领域中AI生成文本的识别与鉴伪研究提供了重要的基准资源,推动了该领域从单一学术场景向多语种、多模态写作情境的拓展。
当前挑战
该数据集所解决的核心领域问题是AI生成文本检测器在面对真实人类写作多样性时的鲁棒性不足。现有检测模型常因训练数据局限于特定语体或语言变体而出现偏差,Editlens Scoring Data通过整合跨语种、跨年龄段、跨社会群体的真实写作样本,迫使检测器必须学习区分AI文本与人类自然语言的本质差异,而非依赖于表层风格特征。在构建过程中,最大的挑战在于多源语料之间标注体系的不统一,例如ASAP 2.0采用写作质量评分,而博客语料依赖作者人口统计学标签,需设计统一的元数据框架以兼容不同标注目标。此外,处理非裔美国人英语等非标准方言文本时,需特别解决拼写变体、语法结构差异对检测模型公平性的影响,同时平衡各语料规模以避免数据不平衡导致评估偏差。
常用场景
经典使用场景
Editlens Scoring Data 数据集将多个不同来源与风格的人写作语料库进行了整合,涵盖了学术写作、博客文本、社交媒消息以及方言变体等多种写作类型。其最经典的使用场景在于构建和评估AI生成文本检测器的性能。研究人员可以利用该数据集提供的真实人类写作样本,模拟在混合生成文本与人类写作的环境中,训练模型以精准区分文本的创作来源。这种跨领域、跨文体的整合,使得检测器能够在更真实、更多样化的场景下进行测试,从而提升其泛化能力与鲁棒性。
实际应用
在实际应用层面,Editlens Scoring Data 可以被直接用于开发与优化面向教育、出版和内容审核等领域的自动化文本真实性校验系统。例如,在教育场景中,利用该数据集训练的检测器能够辅助教师识别学生作业中可能存在的AI生成内容,维护学术诚信;在新闻出版行业,可以将其部署于内容审核管线中,自动甄别由AI生成的虚假新闻或营销文本,保障信息环境的可信度。此外,该数据集还支持构建针对特定社群或方言写作特征的检测系统,以满足对语言公平性与包容性的实际需求。
衍生相关工作
该数据集的构建与发布直接衍生出一系列关于AI文本检测鲁棒性与公平性的经典研究工作。基于这些语料,研究者们开展了针对跨领域检测迁移性的系统性实验,探讨了不同写作能力、年龄、性别以及方言背景对检测准确率的影响。这些衍生工作进一步推动了如对抗性文本生成、可解释性检测以及去偏方法论等前沿方向的发展,催生了大量关于如何在混合文本环境中设计更具道德的AI检测框架的讨论,也为后续构建更负责任的大语言模型评估体系奠定了坚实的实证基础。
以上内容由遇见数据集搜集并总结生成



