Lexicogrammatical Tagger Treebanks
收藏github2026-04-29 更新2026-04-23 收录
下载链接:
https://github.com/LCR-ADS-Lab/Lexicogrammatical_Tagger_Treebanks
下载链接
链接失效反馈官方服务:
资源简介:
该仓库包含两个标注了词汇语法特征的数据集:MICASE和MICUSP。MICASE数据集包含500个从密歇根学术口语英语语料库中随机选取的句子,涵盖了学术、口语、学生和教授等多种语言使用领域。MICUSP数据集包含500个从密歇根高级学生论文语料库中随机选取的句子,涵盖了学术、书面、学生等多种语言使用领域。每个句子都由两名经过训练的标注者独立标注,并由第三名标注者根据标注指南解决任何分歧。
This repository contains two finalized datasets: MICASE and MICUSP. The MICASE dataset comprises 500 sentences randomly sampled from the Michigan Corpus of Academic Spoken English, covering a wide range of language use scenarios including academic spoken discourse, as well as language produced by students and faculty. The MICUSP dataset includes 500 sentences randomly selected from the Michigan Corpus of Upper-Level Student Papers, covering diverse academic written language use contexts from upper-level student authors. Each sentence was independently annotated by two trained annotators, and any disagreements between the two annotators were resolved by a third annotator in accordance with the official annotation guidelines.
创建时间:
2026-04-16
原始信息汇总
Lexicogrammatical Tagger Treebanks 数据集概述
数据集简介
该仓库存储了为Biber及其同事引入的词汇语法特征进行标注的数据集。
标注指南
- 标注指南由Kristopher Kyle、Hakyung Sung、Doug Biber和Randi Reppen共同制定。
- 初始版本由Kyle和Sung基于《朗文语法》开发,并在标注密歇根学术口语英语语料库(MICASE)和密歇根高水平学生论文语料库(MICUSP)的句子过程中,根据Doug和Randi的输入、建议和反馈进行了修订。
- 当前版本的指南可访问:https://lcr-ads-lab.github.io/LxGrTagger-Documentation/
- 指南会随着出现当前指南未涵盖的特定模糊/困难案例而更新。
- 设有一个Google Group(https://groups.google.com/g/lexicogrammatical-tagger-annotators)用于讨论与标注这些特征相关的问题。
当前树库
两个树库已完成,将在相关论文被接受发表后公开。
MICASE(500句)
- 数据来源:从密歇根学术口语英语语料库(MICASE;Simpson et al., 2002)中随机抽取的500个句子合理使用样本。
- 语言使用领域描述:
- 学术领域
- 口语
- 学生和教授
- 英语高级使用者
- 多种情境特征
- 多种学科
- 标注质量:每个句子由两名训练有素的标注员独立标注。任何标注分歧均由第三名标注员根据标注指南进行裁定。
MICUSP(500句)
- 数据来源:从密歇根高水平学生论文语料库(MICUSP;Römer, 2010)中随机抽取的500个句子合理使用样本。
- 语言使用领域描述:
- 学术领域
- 书面语
- 学生
- 主要为英语高级使用者
- 多种情境特征
- 多种学科
- 标注质量:每个句子由两名训练有素的标注员独立标注。任何标注分歧均由第三名标注员根据标注指南进行裁定。
贡献新树库的流程
- 阅读标注指南。
- 随机抽取n个句子(建议在100到1000句之间);建议通知团队您将处理哪个语料库,以避免工作重复。
- 记录任何当前指南未涵盖的标注决策。
- 使用以下方法之一验证您的标注:
- 培训至少两人使用标注指南,由两人独立标注每个句子;根据指南裁定任何分歧。
- 培训至少三人使用标注指南,由两人独立标注每个句子;第三名标注员裁定任何分歧。
- 培训至少两人使用标注指南。使用词汇语法标注器标注每个句子,并由一人独立标注每个句子;第二名标注员裁定任何分歧。
- 在相关会议(例如,通常与计算语言学协会会议共同举办的语言标注研讨会)上以会议论文集论文形式提交您的项目。
- 将您的标注数据提交到本仓库。
- 为您为开放科学做出贡献并使词汇语法标注器更加准确而感到自豪。
引用文献
- Biber, D., Gray, B., Staples, S., & Egbert, J. (2021). Investigating grammatical complexity in L2 English writing research*: linguistic description versus predictive measurement. In The Register-Functional Approach to Grammatical Complexity (pp. 432-457). Routledge.
- Römer, U., & Swales, J. M. (2010). The Michigan corpus of upper-level student papers (MICUSP). Journal of English for Academic Purposes, 9(3), 249.
- Simpson, R. C., S. L. Briggs, J. Ovens, and J. M. Swales. (2002) The Michigan Corpus of Academic Spoken English. Ann Arbor, MI: The Regents of the University of Michigan.
搜集汇总
数据集介绍

构建方式
在语料库语言学领域,构建高质量标注数据集是推动语法特征研究的关键。Lexicogrammatical Tagger Treebanks 的构建严格遵循系统化流程,首先基于《朗文语法》制定初步标注指南,随后结合密歇根学术口语语料库和密歇根高级学生论文语料库的实际句子进行迭代修订。数据采集采用随机抽样方式,从两个语料库中各选取500个句子,确保样本的代表性。标注过程中,每个句子均由两名经过培训的标注员独立完成,并通过第三名标注员依据指南裁决分歧,以此保障标注的一致性与准确性。
特点
该数据集的核心特点在于其标注体系的科学性与语料的多样性。标注体系基于Biber等人提出的词汇语法特征理论,为语法复杂性研究提供了精细的标注框架。数据集涵盖学术口语与学术书面语两种不同模态,分别来自学生与教授的真实交流场景以及高级学生的论文写作,涉及多学科背景与多样化的情境特征。这种设计使得数据集能够有效支撑跨模态、跨语域的对比语言学研究,并为自然语言处理任务提供高质量的语法特征标注资源。
使用方法
对于研究者而言,该数据集的使用需遵循其开放科学的原则与规范。用户可通过访问项目文档详细了解标注指南,并利用已公开的树库进行语法特征分析或模型训练。若希望贡献新的标注数据,需严格按照贡献流程操作:包括阅读指南、随机采样句子、记录标注决策、采用多人独立标注与裁决的方式进行验证,并将成果以会议论文形式发表后提交至代码库。这种严谨的使用与贡献机制,旨在持续扩展数据规模并提升标注工具的准确性,从而推动相关领域的协同发展。
背景与挑战
背景概述
Lexicogrammatical Tagger Treebanks 数据集由 Biber 及其同事于 2021 年引入的词汇语法特征标注体系构建而成,主要研究人员包括 Kristopher Kyle、Hakyung Sung、Doug Biber 和 Randi Reppen。该数据集基于《朗文语法》框架,并利用密歇根学术口语英语语料库(MICASE)和密歇根高级学生论文语料库(MICUSP)的句子进行标注修订,旨在系统化解析英语在学术语境中的词汇语法复杂性。其核心研究问题聚焦于如何精确量化与描述二语英语写作中的语法复杂度,为语言学研究与计算语言学应用提供了标准化的标注资源,推动了语料库语言学与自然语言处理领域的交叉发展。
当前挑战
该数据集致力于解决学术英语中语法复杂度分析与描述的挑战,其核心在于如何准确标注词汇语法特征以支持语言习得与文本复杂度研究。在构建过程中,面临多重困难:标注指南需不断修订以应对语言实例中的歧义与边缘情况,确保标注一致性与可靠性;数据标注依赖于多轮人工独立标注与裁决流程,耗时且对标注者专业训练要求极高;同时,数据来源限于特定学术语料库,可能影响模型在不同文体与语境中的泛化能力。这些挑战凸显了在语言学标注任务中平衡精度、效率与可扩展性的复杂性。
常用场景
经典使用场景
在语料库语言学和计算语言学领域,Lexicogrammatical Tagger Treebanks 数据集为研究者提供了标注丰富的语言资源,其最经典的使用场景在于支持词汇语法特征的自动标注与验证。该数据集基于Biber等人提出的词汇语法框架,对学术英语口语和书面语料进行精细标注,使得研究者能够利用这些标注数据训练和评估自动标注工具,如词汇语法标注器,从而提升对复杂语言结构的识别准确性。通过结合MICASE和MICUSP等权威学术语料库,该数据集为语言模型开发提供了标准化的训练与测试基准,促进了自然语言处理技术在学术文本分析中的应用。
实际应用
在实际应用中,Lexicogrammatical Tagger Treebanks 数据集被广泛用于开发智能语言工具,如学术写作辅助系统和语言学习平台。教育机构可以利用该数据集训练模型,以自动检测学生论文中的语法复杂度特征,并提供个性化反馈,从而提升教学效率。同时,在专业领域如学术出版和翻译服务中,该数据集支持的语言分析工具有助于优化文本可读性和风格一致性。此外,它还为跨语言对比研究和多语种语料库建设提供了方法论参考,推动了语言技术在现实场景中的落地与创新。
衍生相关工作
基于该数据集衍生的经典工作主要集中在自动标注系统的优化与扩展上,例如Biber团队开发的词汇语法标注器及其后续改进版本。这些工作不仅提升了标注效率,还促进了标注指南的迭代完善,如通过社区协作解决歧义案例。相关研究还延伸至语料库驱动的跨语域比较,例如对比学术口语与书面语的语法特征差异,并应用于语言评估框架的开发。此外,该数据集启发了多项国际研讨会论文,如语言标注工作坊(LAW)中的贡献,推动了开放科学运动在语言学领域的深化与发展。
以上内容由遇见数据集搜集并总结生成



