C-MTEB/LCQMC

Hugging Face2023-07-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/C-MTEB/LCQMC

下载链接

链接失效反馈

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* dataset_info: features: - name: sentence1 dtype: string - name: sentence2 dtype: string - name: score dtype: int32 splits: - name: train num_bytes: 18419299 num_examples: 238766 - name: validation num_bytes: 760701 num_examples: 8802 - name: test num_bytes: 876457 num_examples: 12500 download_size: 14084841 dataset_size: 20056457 --- # Dataset Card for "LCQMC" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 配置项： - 配置名称：默认（default）数据文件： - 拆分集：训练集（train），路径：data/train-* - 拆分集：验证集（validation），路径：data/validation-* - 拆分集：测试集（test），路径：data/test-* 数据集信息：数据特征： - 字段名：sentence1，数据类型：字符串（string） - 字段名：sentence2，数据类型：字符串（string） - 字段名：score，数据类型：32位整数（int32）数据集拆分详情： - 拆分集名称：训练集（train），字节数：18419299，样本数：238766 - 拆分集名称：验证集（validation），字节数：760701，样本数：8802 - 拆分集名称：测试集（test），字节数：876457，样本数：12500 下载大小：14084841，数据集总大小：20056457 --- # 「LCQMC」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

C-MTEB

原始信息汇总

数据集概述

数据集配置

默认配置 (config_name: default)
- 训练数据 (split: train): data/train-*
- 验证数据 (split: validation): data/validation-*
- 测试数据 (split: test): data/test-*

数据集信息

特征
- sentence1: 数据类型为 string
- sentence2: 数据类型为 string
- score: 数据类型为 int32
数据分割详情
- 训练集 (name: train)
  - 字节数: 18419299
  - 示例数: 238766
- 验证集 (name: validation)
  - 字节数: 760701
  - 示例数: 8802
- 测试集 (name: test)
  - 字节数: 876457
  - 示例数: 12500
数据集大小
- 下载大小: 14084841
- 数据集总大小: 20056457

搜集汇总

数据集介绍

构建方式

C-MTEB/LCQMC数据集的构建，是基于中文句子对及其相关性的大规模收集与整理。数据集涵盖了训练、验证和测试三个部分，分别通过data/train-*、data/validation-*和data/test-*路径下的文件进行存储。该数据集的构建遵循了严格的筛选和标注流程，确保了数据质量与一致性，从而为机器学习模型的训练与评估提供了坚实基础。

特点

C-MTEB/LCQMC数据集的特点在于其专注于中文语言理解的评价基准。数据集包含两列文本数据，分别为sentence1和sentence2，以及一个整数标签score，用于表示两个句子的相关性。该数据集规模宏大，包含了超过23万条训练样本，以及一定数量的验证和测试样本，为研究者提供了丰富的实验资源。

使用方法

使用C-MTEB/LCQMC数据集时，用户可以根据自身的需求选择不同的数据分割，如训练集、验证集或测试集。数据集以HuggingFace的格式存储，可以直接通过HuggingFace的datasets库加载使用。加载后，用户可以获取到每个样本的句子对及其相关性评分，进而用于模型的训练、验证和测试，以评估模型在中文语言理解任务上的性能。

背景与挑战

背景概述

LCQMC（Language Computing Memory-based Text Entailment Benchmark）数据集，诞生于自然语言处理领域，旨在为文本蕴含任务提供一个具备挑战性的基准。该数据集由清华大学和北京师范大学的研究团队于2018年创建，针对的主要研究问题是句子级别的文本蕴含识别，即判断两个句子之间的逻辑蕴含关系。LCQMC数据集的出现，为相关领域的研究者提供了一个宝贵的资源，极大地推动了文本蕴含任务的研究进展，并在学术界产生了广泛影响。

当前挑战

LCQMC数据集在构建过程中遇到了多项挑战，其中包括：确保数据质量的高标准，通过精心设计的标注流程来降低标注偏差；构建一个均衡的数据集，以涵盖各种不同的语言现象和逻辑蕴含关系；以及数据集规模的扩大，以提供足够的训练样本以支持复杂模型的训练。在解决的领域问题方面，LCQMC所面临的挑战包括如何准确地区分细粒度的语义差异，以及如何有效地处理大量的自然语言变体，以保证模型的泛化能力。

常用场景

经典使用场景

在自然语言处理领域，C-MTEB/LCQMC数据集被广泛用于句子对语义相似度评估任务。其核心在于判断两个句子在语义层面的相似度，这对于构建能够理解和生成自然语言的人工智能系统至关重要。

衍生相关工作

基于C-MTEB/LCQMC数据集的研究成果，衍生出了一系列相关的经典工作，如句子嵌入模型的研究、跨语言语义相似度比较等，进一步推动了自然语言处理领域的研究深度和应用广度。

数据集最近研究