CoLA (Corpus of Linguistic Acceptability)|语言学数据集|自然语言处理数据集

OpenDataLab2025-04-05 更新2024-05-09 收录

语言学

自然语言处理

下载链接：

https://opendatalab.org.cn/OpenDataLab/CoLA

下载链接

链接失效反馈

资源简介：

语言可接受性语料库 (CoLA) 由来自23个语言学出版物的10657个句子组成，这些句子由其原始作者专门注释为可接受性 (语法性)。公共版本包含属于训练和开发集的9594句子，并且不包括属于保留的测试集的1063句子。

提供机构：

OpenDataLab

创建时间：

2022-05-23

AI搜集汇总

数据集介绍

构建方式

CoLA数据集的构建基于对语言学接受度的深入研究，通过从语言学文献中精心挑选和标注句子，确保数据集的科学性和权威性。研究者们从多种语言学理论和实证研究中提取句子，并由专家进行双盲评审，以确保每个句子都准确反映了其在特定语法结构下的接受度。这种多层次的筛选和验证过程，使得CoLA数据集成为评估自然语言处理模型在语法接受度任务上的黄金标准。

使用方法

使用CoLA数据集时，研究者通常将其分为训练集和测试集，用于训练和评估自然语言处理模型在语法接受度任务上的表现。模型可以通过学习数据集中的句子及其接受度标签，来提升对语法规则的理解和应用能力。在实际应用中，研究者可以利用该数据集进行模型调优，通过对比不同模型在测试集上的表现，选择最优模型。此外，CoLA数据集还可以用于验证新提出的语言学理论或模型改进方法的有效性。

背景与挑战

背景概述

CoLA（Corpus of Linguistic Acceptability）数据集由纽约大学于2018年创建，主要研究人员包括Alex Warstadt、Amanpreet Singh和Samuel R. Bowman。该数据集的核心研究问题聚焦于语言学中的可接受性判断，即确定一个句子在语法上是否被视为正确。CoLA的构建旨在为自然语言处理领域提供一个标准化的基准，以评估和提升模型在语法判断任务中的表现。其影响力在于推动了语法分析和语言模型评估的进步，为后续研究提供了重要的参考资源。

当前挑战

CoLA数据集在解决语言可接受性判断问题时面临多项挑战。首先，构建过程中需确保标注的一致性和准确性，因为语言可接受性的判断具有主观性，不同标注者可能存在差异。其次，数据集的规模和多样性也是一个挑战，需要涵盖广泛的语言结构和复杂性，以确保模型的泛化能力。此外，如何有效地利用CoLA数据集进行模型训练和评估，以提高语法判断的准确性，也是当前研究中的一个重要课题。

发展历史

创建时间与更新

CoLA数据集由纽约大学于2018年创建，旨在评估自然语言处理模型对语法正确性的判断能力。该数据集自创建以来未有公开的更新记录。

重要里程碑

CoLA数据集的发布标志着自然语言处理领域对语法理解能力的重视。其首次将语法正确性评估引入到模型训练和评估中，推动了语法相关任务的研究进展。此外，CoLA数据集在多个自然语言处理竞赛中被广泛使用，成为评估模型语法理解能力的重要基准。

当前发展情况

目前，CoLA数据集在自然语言处理研究中仍具有重要地位。随着深度学习技术的进步，研究人员不断尝试改进模型在CoLA上的表现，探索更复杂的语法结构和语言现象。CoLA的持续使用不仅促进了语法理解模型的优化，也为跨语言语法研究提供了宝贵的资源。

发展历程

CoLA数据集首次发表在《The Corpus of Linguistic Acceptability in Context》论文中，由Alex Warstadt、Amanpreet Singh和Samuel R. Bowman共同提出，旨在评估自然语言处理模型对语法正确性的理解能力。
2018年
CoLA数据集在GLUE（General Language Understanding Evaluation）基准测试中被广泛应用，成为评估模型在语言可接受性任务上性能的重要工具。
2019年
随着预训练语言模型（如BERT、GPT-3）的发展，CoLA数据集被用于微调这些模型，以提升其在语法判断任务上的表现。
2020年

常用场景

经典使用场景

在自然语言处理领域，CoLA（Corpus of Linguistic Acceptability）数据集被广泛用于评估和改进语言模型的语法正确性。该数据集由一系列英语句子组成，每个句子都被标注为语法上是否可接受。研究者利用CoLA数据集训练和测试模型，以判断其对语法规则的理解和应用能力。这种评估不仅有助于提升模型的语法准确性，还为语言学研究提供了宝贵的数据支持。

解决学术问题

CoLA数据集在解决自然语言处理中的语法可接受性问题上发挥了关键作用。通过提供大量标注的语法正确和错误的句子，该数据集帮助研究者开发和验证语法模型，从而推动了语言学和计算语言学的发展。此外，CoLA数据集的应用还促进了跨学科研究，如心理学和语言学的结合，为理解人类语言处理机制提供了新的视角。

实际应用

在实际应用中，CoLA数据集被用于开发和优化各种自然语言处理工具和系统。例如，在自动文本校对、机器翻译和智能助手等领域，基于CoLA训练的模型能够更准确地识别和纠正语法错误，从而提升用户体验。此外，该数据集还支持教育软件的开发，帮助学生和语言学习者提高语法水平。

数据集最近研究

相关研究论文

1
The Corpus of Linguistic Acceptability (CoLA) in Context: Curation and ApplicationNew York University · 2018年
2
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingGoogle AI Language · 2019年
3
RoBERTa: A Robustly Optimized BERT Pretraining ApproachFacebook AI Research · 2019年
4
ALBERT: A Lite BERT for Self-supervised Learning of Language RepresentationsGoogle Research · 2020年
5
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than GeneratorsStanford University · 2020年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

koen430/relevant_selected_stock_news

该数据集包含通过GPT-3.5-turbo筛选出的新闻文章，旨在用于微调大型语言模型，以预测新闻发布后的股票价格变动。数据集包括多个特征，如股票代码、提示、文本、URL、结果、相关性、令牌计数等，并分为训练集、验证集和测试集。

hugging_face 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取；气象实测数据从气象站获取，气象站建于电站30号箱变附近，每5分钟将采集的数据通过光纤传输到机房；数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统（包括30TF计算刀片机、250TB并行存储）进行中尺度模式计算后输出预报产品，每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录

Cifar-100

Cifar-100数据集包含100个类别的60000张32x32彩色图像，每个类别有600张图像。这些类别被分为20个超类，每个超类包含5个子类。数据集分为50000张训练图像和10000张测试图像。