SCHOLAWRITE

Name: SCHOLAWRITE
Creator: 明尼苏达大学
Published: 2025-02-05 13:57:37
License: 暂无描述

arXiv2025-02-05 更新2025-02-11 收录

下载链接：

https://minnesotanlp.github.io/scholawrite/

下载链接

链接失效反馈

官方服务：

资源简介：

SCHOLAWRITE数据集是由明尼苏达大学研究者构建的，包含五个预印本近62,000次LaTeX编辑操作的记录，记录了作者在数月论文撰写过程中的认知写作意图。数据集通过创新的Chrome扩展程序收集，并通过专家注释，旨在为学术研究领域的人工智能写作助手开发提供支持。

The ScholaWrite Dataset was constructed by researchers from the University of Minnesota. It contains records of nearly 62,000 LaTeX editing operations across five preprints, which capture the authors' cognitive writing intentions during the several-month manuscript writing process. The dataset was collected via an innovative Chrome extension and annotated by experts, aiming to support the development of AI-powered writing assistants for academic research.

提供机构：

明尼苏达大学

创建时间：

2025-02-05

搜集汇总

数据集介绍

构建方式

SCHOLAWRITE数据集的构建过程独具匠心，它通过开发一个Chrome扩展程序来记录科研人员在使用Overleaf LaTeX编辑器进行学术写作时的键盘敲击轨迹。该扩展程序能够在后台实时收集数据，不会干扰写作过程。数据收集完成后，研究人员会对每个键盘敲击背后的认知写作意图进行深入的标注。数据集包含了五篇预印本论文的基于LaTeX的键盘敲击数据，这些论文经过近4个月的撰写过程，总计约有62K次文本更改和标注。为了确保数据集的可用性和隐私安全，所有数据在发布前都经过了去识别化处理。

特点

SCHOLAWRITE数据集具有几个显著的特点。首先，它是首个涵盖完整的学术写作过程的键盘敲击日志数据集，从个体想法到最终手稿都有详尽的记录。其次，数据集包含了由语言学和计算机科学专家进行的精细标注，这些标注基于一个新颖的分类系统，该系统详细描述了学术写作过程中的人类认知意图。此外，数据集的收集时间跨度长，数据量大，为研究学术写作的认知过程提供了丰富的资源。最后，SCHOLAWRITE数据集的发布形式包括去识别化的数据、演示和代码库，便于公众使用和进一步研究。

使用方法

使用SCHOLAWRITE数据集的方法包括但不限于：1. 训练语言模型以理解学术写作的认知过程，并据此提供写作建议；2. 研究学术写作的认知模式和意图分布；3. 开发和评估认知写作助手，以支持科研人员的写作思考过程。用户可以通过访问SCHOLAWRITE项目页面来获取数据集和相关的代码库。此外，用户还可以通过阅读论文和相关附录来深入了解数据集的构建过程、标注方法和应用场景。

背景与挑战

背景概述

学术写作是一项涉及持续决策、大量工作记忆使用和频繁切换多项活动的认知要求较高的任务。学术写作尤其复杂，因为它要求作者协调许多不同形式的知识的多个片段。为了充分理解作者的认知思考过程，我们需要完全解码端到端的写作数据（从个别想法到最终的手稿）并理解学术写作中的复杂认知机制。我们介绍了SCHOLAWRITE数据集，这是首个完整的端到端学术写作过程的关键记录，其中包含每个按键背后的认知写作意图的详细注释。我们的数据集包括来自五篇预印本的基于LATEX的关键记录数据，涵盖近62K个文本更改，并在四个月的论文写作过程中进行了注释。SCHOLAWRITE显示了作为未来学术研究AI写作助手发展的有希望的可用性和应用（例如，迭代自我写作），这需要超越LLM提示的复杂方法。我们的实验清楚地表明，收集端到端的写作数据而不是最终的手稿对于开发未来的写作助手以支持科学家的认知思考过程的重要性。我们匿名化的数据集、演示和代码存储库可在我们的项目页面1上获得。

当前挑战

SCHOLAWRITE数据集面临的挑战包括：1)理解学术写作的认知过程；2)构建过程中所遇到的挑战。为了更好地理解作者的认知思考过程，我们需要完全解码端到端的写作数据，并理解学术写作中的复杂认知机制。这需要我们开发新的数据收集和注释系统，并创建一个全面分类的认知写作意图。同时，我们还需要解决数据收集过程中的隐私问题，并确保数据集的通用性和可扩展性。

常用场景

经典使用场景

SCHOLAWRITE数据集是首个捕获完整学术写作过程的按键日志数据集，包括从个人想法到最终手稿的全面注释，以及每个按键背后的认知写作意图。该数据集适用于研究学术写作的认知过程，以及开发能够支持科学家认知思维过程的AI写作助手。此外，该数据集可用于训练大型语言模型（LLMs），使其能够理解和生成类似于人类科学家的写作。

衍生相关工作

SCHOLAWRITE数据集衍生了多种相关研究，包括开发新的数据收集和注释系统，以及创建一个针对学术写作领域的认知写作意图分类法。此外，该数据集已被用于训练LLMs以预测作者的下一个写作意图，并生成反映人类写作过程的学术写作行为。SCHOLAWRITE数据集还为开发能够提供认知对齐写作建议的工具提供了基础，并有助于理解学术写作的认知过程。

数据集最近研究