suchirsalhan/CLiMP

Name: suchirsalhan/CLiMP
Creator: suchirsalhan
Published: 2024-04-02 10:38:18
License: 暂无描述

Hugging Face2024-04-02 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/suchirsalhan/CLiMP

下载链接

链接失效反馈

官方服务：

资源简介：

CLiMP是一个用于中文语言模型评估的基准数据集。该数据集包含1000个最小对（minimal pairs），涵盖了16种中文句法对比和9种主要的中文语言现象。这些最小对是半自动生成的，并且人类对这些标签的同意率为95.8%。数据集用于评估11种不同的语言模型，包括n-grams、LSTMs和中文BERT。

提供机构：

suchirsalhan

原始信息汇总

数据集概述

数据集名称

名称: CLiMP
全称: A Benchmark for Chinese Language Model Evaluation

数据集描述

用途: 用于评估小型中文语言模型
相关研究: 伴随EACL 2021论文"CLiMP: A Benchmark for Chinese Language Model Evaluation"

数据集特性

语言: 中文
标签: Syntax
规模: 小于1000条数据

数据集使用许可

许可类型: MIT

引用信息

引用格式:

@inproceedings{xiang-etal-2021-climp, title = "{CL}i{MP}: A Benchmark for {C}hinese Language Model Evaluation", author = "Xiang, Beilei and Yang, Changbing and Li, Yu and Warstadt, Alex and Kann, Katharina", booktitle = "Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume", month = apr, year = "2021", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.eacl-main.242", doi = "10.18653/v1/2021.eacl-main.242", pages = "2784--2790" }

搜集汇总

数据集介绍

背景与挑战

背景概述

CLiMP是一个中文语言模型评估基准数据集，包含16个句法对比的1000个最小对，覆盖9种主要中文语言现象，用于评估语言模型的语言学知识。数据集规模较小（小于1K），专注于句法分析，但存在数据生成错误导致部分内容无法正常预览。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集