five

C-MTEB/LCQMC|自然语言处理数据集|句子相似度数据集

收藏
hugging_face2023-07-28 更新2024-03-04 收录
自然语言处理
句子相似度
下载链接:
https://hf-mirror.com/datasets/C-MTEB/LCQMC
下载链接
链接失效反馈
资源简介:
数据集LCQMC包含三个主要特征:sentence1和sentence2为字符串类型,可能用于表示对话或文本对,score为整数类型,可能用于评分或分类。数据集分为训练集、验证集和测试集,总大小为20056457字节,下载大小为14084841字节。
提供机构:
C-MTEB
原始信息汇总

数据集概述

数据集配置

  • 默认配置 (config_name: default)
    • 训练数据 (split: train): data/train-*
    • 验证数据 (split: validation): data/validation-*
    • 测试数据 (split: test): data/test-*

数据集信息

  • 特征

    • sentence1: 数据类型为 string
    • sentence2: 数据类型为 string
    • score: 数据类型为 int32
  • 数据分割详情

    • 训练集 (name: train)
      • 字节数: 18419299
      • 示例数: 238766
    • 验证集 (name: validation)
      • 字节数: 760701
      • 示例数: 8802
    • 测试集 (name: test)
      • 字节数: 876457
      • 示例数: 12500
  • 数据集大小

    • 下载大小: 14084841
    • 数据集总大小: 20056457
AI搜集汇总
数据集介绍
main_image_url
构建方式
C-MTEB/LCQMC数据集的构建,是基于中文句子对及其相关性的大规模收集与整理。数据集涵盖了训练、验证和测试三个部分,分别通过data/train-*、data/validation-*和data/test-*路径下的文件进行存储。该数据集的构建遵循了严格的筛选和标注流程,确保了数据质量与一致性,从而为机器学习模型的训练与评估提供了坚实基础。
特点
C-MTEB/LCQMC数据集的特点在于其专注于中文语言理解的评价基准。数据集包含两列文本数据,分别为sentence1和sentence2,以及一个整数标签score,用于表示两个句子的相关性。该数据集规模宏大,包含了超过23万条训练样本,以及一定数量的验证和测试样本,为研究者提供了丰富的实验资源。
使用方法
使用C-MTEB/LCQMC数据集时,用户可以根据自身的需求选择不同的数据分割,如训练集、验证集或测试集。数据集以HuggingFace的格式存储,可以直接通过HuggingFace的datasets库加载使用。加载后,用户可以获取到每个样本的句子对及其相关性评分,进而用于模型的训练、验证和测试,以评估模型在中文语言理解任务上的性能。
背景与挑战
背景概述
LCQMC(Language Computing Memory-based Text Entailment Benchmark)数据集,诞生于自然语言处理领域,旨在为文本蕴含任务提供一个具备挑战性的基准。该数据集由清华大学和北京师范大学的研究团队于2018年创建,针对的主要研究问题是句子级别的文本蕴含识别,即判断两个句子之间的逻辑蕴含关系。LCQMC数据集的出现,为相关领域的研究者提供了一个宝贵的资源,极大地推动了文本蕴含任务的研究进展,并在学术界产生了广泛影响。
当前挑战
LCQMC数据集在构建过程中遇到了多项挑战,其中包括:确保数据质量的高标准,通过精心设计的标注流程来降低标注偏差;构建一个均衡的数据集,以涵盖各种不同的语言现象和逻辑蕴含关系;以及数据集规模的扩大,以提供足够的训练样本以支持复杂模型的训练。在解决的领域问题方面,LCQMC所面临的挑战包括如何准确地区分细粒度的语义差异,以及如何有效地处理大量的自然语言变体,以保证模型的泛化能力。
常用场景
经典使用场景
在自然语言处理领域,C-MTEB/LCQMC数据集被广泛用于句子对语义相似度评估任务。其核心在于判断两个句子在语义层面的相似度,这对于构建能够理解和生成自然语言的人工智能系统至关重要。
衍生相关工作
基于C-MTEB/LCQMC数据集的研究成果,衍生出了一系列相关的经典工作,如句子嵌入模型的研究、跨语言语义相似度比较等,进一步推动了自然语言处理领域的研究深度和应用广度。
数据集最近研究
最新研究方向
在自然语言处理领域,C-MTEB/LCQMC数据集作为衡量机器理解中文文本匹配能力的重要资源,近期研究主要聚焦于深度学习模型在句子级语义匹配任务上的性能提升。学者们正探索运用更复杂的网络结构以及预训练模型微调技术,以提高模型在理解句子对相似度方面的准确性。此研究方向与当前语言模型发展的热点事件紧密相连,对于推动中文自然语言处理技术的发展具有深远影响,不仅优化了信息检索、问答系统等应用,也为智能客服、语义搜索引擎等实际场景提供了技术支撑。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

frames-benchmark

FRAMES数据集是一个综合评估数据集,旨在测试检索增强生成(RAG)系统在事实性、检索准确性和推理方面的能力。该数据集包含824个具有挑战性的多跳问题,这些问题需要从2到15篇维基百科文章中获取信息。问题涵盖了历史、体育、科学、动物、健康等多个主题,并且每个问题都标有推理类型,如数值、表格、多重约束、时间性和后处理。数据集还提供了每个问题的黄金答案和相关的维基百科文章。FRAMES数据集的主要特点包括测试端到端的RAG能力、需要整合来自多个来源的信息、包含复杂的推理和时间性消歧,并设计为对最先进的语言模型具有挑战性。该数据集可用于评估RAG系统性能、基准测试语言模型的事实性和推理能力,以及开发和测试多跳检索策略。

huggingface 收录