five

suchirsalhan/CLiMP

收藏
Hugging Face2024-04-02 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/suchirsalhan/CLiMP
下载链接
链接失效反馈
官方服务:
资源简介:
CLiMP是一个用于中文语言模型评估的基准数据集。该数据集包含1000个最小对(minimal pairs),涵盖了16种中文句法对比和9种主要的中文语言现象。这些最小对是半自动生成的,并且人类对这些标签的同意率为95.8%。数据集用于评估11种不同的语言模型,包括n-grams、LSTMs和中文BERT。

CLiMP是一个用于中文语言模型评估的基准数据集。该数据集包含1000个最小对(minimal pairs),涵盖了16种中文句法对比和9种主要的中文语言现象。这些最小对是半自动生成的,并且人类对这些标签的同意率为95.8%。数据集用于评估11种不同的语言模型,包括n-grams、LSTMs和中文BERT。
提供机构:
suchirsalhan
原始信息汇总

数据集概述

数据集名称

  • 名称: CLiMP
  • 全称: A Benchmark for Chinese Language Model Evaluation

数据集描述

  • 用途: 用于评估小型中文语言模型
  • 相关研究: 伴随EACL 2021论文"CLiMP: A Benchmark for Chinese Language Model Evaluation"

数据集特性

  • 语言: 中文
  • 标签: Syntax
  • 规模: 小于1000条数据

数据集使用许可

  • 许可类型: MIT

引用信息

  • 引用格式:

    @inproceedings{xiang-etal-2021-climp, title = "{CL}i{MP}: A Benchmark for {C}hinese Language Model Evaluation", author = "Xiang, Beilei and Yang, Changbing and Li, Yu and Warstadt, Alex and Kann, Katharina", booktitle = "Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume", month = apr, year = "2021", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.eacl-main.242", doi = "10.18653/v1/2021.eacl-main.242", pages = "2784--2790" }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CLiMP是一个中文语言模型评估基准数据集,包含16个句法对比的1000个最小对,覆盖9种主要中文语言现象,用于评估语言模型的语言学知识。数据集规模较小(小于1K),专注于句法分析,但存在数据生成错误导致部分内容无法正常预览。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作