ACL Anthology Corpus; LLM-Assisted Paraphrases

Name: ACL Anthology Corpus; LLM-Assisted Paraphrases
Creator: 斯图加特大学·自然语言处理研究所
Published: 2026-05-19 22:54:33
License: 暂无描述

arXiv2026-05-19 更新2026-05-21 收录

下载链接：

https://github.com/FilipMiletic/ScientificCommunication

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了两个核心数据集，旨在探究大语言模型对科学写作风格的影响。ACL Anthology Corpus是一个自然语料库，包含从ACL Anthology中收集的37,760篇NLP领域论文（2020-2024年），总计约2.038亿Tokens，数据通过GROBID从PDF中提取并经过预处理。LLM-Assisted Paraphrases是一个合成数据集，包含3,000对人工撰写的文本段落及其对应的GPT-3.5生成的改进版本，通过模拟常见的写作优化提示构建。数据集的创建过程涉及对ACL Anthology的元数据爬取、文本提取、时间分段（以ChatGPT发布为界）以及可控的LLM改写实验。这些数据集主要用于分析LLM辅助写作引起的词汇、句法风格变化，并连接至主观阅读体验评估，以解决科学交流中AI辅助写作的客观特征与主观感知之间的关联问题。

This study constructs two core datasets to investigate the impact of Large Language Models (LLMs) on scientific writing styles. The ACL Anthology Corpus is a natural language corpus containing 37,760 NLP papers (2020–2024) collected from the ACL Anthology, totaling approximately 203.8 million Tokens. The data was extracted from PDFs via GROBID and preprocessed. The LLM-Assisted Paraphrases is a synthetic dataset containing 3,000 pairs of manually written text passages and their corresponding improved versions generated by GPT-3.5, constructed by simulating common writing optimization prompts. The dataset creation process involves metadata crawling from the ACL Anthology, text extraction, temporal segmentation (bounded by the release of ChatGPT), and controlled LLM rewriting experiments. These datasets are primarily used to analyze the lexical and syntactic style changes induced by LLM-assisted writing, and to link with subjective reading experience assessments, aiming to address the correlation between objective characteristics and subjective perceptions of AI-assisted writing in scientific communication.

提供机构：

斯图加特大学·自然语言处理研究所

创建时间：

2026-05-19

原始信息汇总

数据集概述

该数据集与论文《LLMs对科学交流的影响：测量写作实践与阅读体验的变化》相关，主要内容源自ACL Anthology论文语料库的更新版本。

核心内容

语料来源：ACL Anthology论文语料库的更新版本。
研究主题：分析大型语言模型对科学交流中写作实践和阅读体验的影响。

数据集组成

数据集存储在仓库的data文件夹中，包含：

用于分析的所有数据文件
匿名化的人工成对偏好标注数据

代码与处理流程

仓库提供完整的分析代码，按步骤组织：

语料更新（update_original_corpus目录）：提供更新原始ACL语料库的完整流程。
数据准备（prep_data目录）：包括通用预处理、基于频率的词汇信息计算、主题模型实现、word2vec模型以及基于上下文词嵌入的聚类。
词汇分析（lexical_analysis目录）：分析词汇模式，并整合上一步生成的词汇级信息数据框。
特征分析（feature_analysis目录）：提取语言特征、进行特征选择和回归分析，结果保存在results_feature_analysis子文件夹中。

数据集详情页地址

https://github.com/FilipMiletic/ScientificCommunication

搜集汇总

数据集介绍

构建方式

该数据集包含两个子集：自然语料库与合成数据集。自然语料库基于ACL Anthology，覆盖2020至2024年间超过37,000篇论文，通过对ACL-OCL语料库进行更新扩展而成，利用BibTeX信息识别缺失论文并借助GROBID提取全文，最终构建了跨越ChatGPT发布前后的两个时段。合成数据集则从2022年论文中随机抽取3,000个人类撰写段落，通过10种反映真实科研写作场景的提示词（如改进连贯性、优化语法与可读性），调用GPT-3.5-turbo生成对应的LLM改进版本，形成了3,000对人工-模型改写文本。

特点

该数据集的核心特点在于其双重对比设计：一方面，自然语料库提供了真实科研写作中人类与LLM混杂使用的生态学视角；另一方面，合成数据集通过控制主题与提示词，实现了人类文本与LLM明确修改文本的干净对照。此外，数据集不仅涵盖词汇频率与语义变化的历时分析，还整合了超过1,000种语言学特征（涵盖句法、形态、词汇多样性、情感等维度），并配套了20位领域专家对200个文本对的阅读体验主观标注（包括清晰度、真实性、可信度与兴奋度），形成了从客观语言特征到主观感知的完整研究链路。

使用方法

研究利用自然语料库开展历时词汇分析，基于对数似然比识别词频变化，结合word2vec分布邻域密度与ModernBERT token级嵌入聚类，刻画语义泛化与特化机制。在此基础上，运用逻辑回归与弹性网络正则化在自然与合成数据上共同筛选24个稳健语言特征，揭示LLM文本中更长的词汇、更低词汇多样性及更多副词从句等典型风格。最后，通过配对比较实验，请20位领域专家对4个阅读体验维度进行利克特量表评分，并辅以定性访谈，系统评估LLM辅助写作对读者主观感受的影响。

背景与挑战

背景概述

在大型语言模型（LLM）日益渗透科学写作的背景下，斯图加特大学自然语言处理研究所的Filip Miletić与Neele Falk于2026年发布了ACL Anthology Corpus及LLM-Assisted Paraphrases数据集。该研究聚焦于LLM辅助写作对学术交流风格的影响，通过构建涵盖2020至2024年逾37,000篇ACL Anthology论文的自然语料库，以及3,000对人工撰写与LLM改进文本的合成数据集，系统探究了词汇使用、句法复杂性与阅读体验之间的动态关系。这一工作为理解AI辅助写作如何重塑科学语体提供了关键实证基础，并推动了计算语言学领域对语言演化与主观感知交互机制的研究。

当前挑战

该数据集面临的核心挑战在于双重复杂性：首先，领域问题层面，LLM辅助写作的细微介入难以被传统人机文本二分法捕捉——现实场景中论文往往混杂人工与模型修改内容，且不同LLM版本与提示策略导致风格差异多变。其次，构建过程中，作者需从ACL-OCL语料库中提取完整论文文本并补全缺失PDF，同时设计10种反映真实科研习惯的提示（如润色、增强连贯性）以生成3,000个受控改写对。此外，标注研究面临主观性困境：20位专家对200对文本的清晰度与可信度评分存在显著个体差异，定性访谈更揭示用户对LLM文本的矛盾态度——整体偏好改进版本，却对人工智能写作持批判立场。

常用场景

经典使用场景

该数据集的核心用途在于系统性地探究大型语言模型对科学写作风格的影响。通过构建跨越2020至2024年间逾三万七千篇ACL Anthology论文的自然语料库，并配以三千对人工撰写段落与其大模型改进版本的合成数据集，研究者得以在真实与受控两种情境下，对比ChatGPT发布前后学术文本在词汇选择、句法结构及文体特征上的变迁。这一设计为量化分析AI辅助写作所带来的语言演变提供了坚实的数据基础。

衍生相关工作

该数据集催生了若干具有深远意义的研究分支。其自然语料与合成数据相结合的设计范式，启发了后续在更广泛学科领域（如生物医学、社会科学）中开展类似的大型语言模型影响研究。基于该数据集提取的差异化文体特征（如依存关系复杂度、标点使用模式、命名实体分布），已成为训练新型AI内容检测模型的重要基线。特别是关于读者体验的标注研究，直接促进了人机协作写作领域的主观评价框架构建，推动了从单纯的可检测性研究向阅读感知多维评估的范式转变。

数据集最近研究