shibing624/nli_zh|自然语言处理数据集|语义匹配数据集

hugging_face2022-10-30 更新2024-03-04 收录

自然语言处理

语义匹配

下载链接：

https://hf-mirror.com/datasets/shibing624/nli_zh

下载链接

链接失效反馈

资源简介：

这是一个包含多个任务（如ATEC、BQ、LCQMC、PAWSX和STS-B）的中文语义匹配数据集，支持中文文本匹配和文本相似度计算等任务。数据集由shibing624创建，使用简体中文文本，旨在作为中文NLI数据集，方便研究者使用。

提供机构：

shibing624

原始信息汇总

数据集概述

数据集描述

名称: NLI_zh
语言: 中文（简体）
许可证: CC-BY-4.0
多语言性: 单语种
大小: 100K<n<20M
任务类别: 文本分类
任务ID: 自然语言推理, 语义相似度评分, 文本评分
论文代码ID: snli
美观名称: Stanford Natural Language Inference

数据集结构

数据实例

json { "sentence1": "刘诗诗杨幂谁漂亮", "sentence2": "刘诗诗和杨幂谁漂亮", "label": 1 } { "sentence1": "汇理财怎么样", "sentence2": "怎么样去理财", "label": 0 }

数据字段

sentence1: 字符串类型
sentence2: 字符串类型
label: 分类标签，可能的值为相似(1)和不相似(0)

数据集创建

源数据

ATEC: https://github.com/IceFlameWorm/NLP_Datasets/tree/master/ATEC
BQ: http://icrc.hitsz.edu.cn/info/1037/1162.htm
LCQMC: http://icrc.hitsz.edu.cn/Article/show/171.html
PAWSX: https://arxiv.org/abs/1908.11828
STS-B: https://github.com/pluto-junzeng/CNSD

数据集分割

ATEC: 训练集62477条，验证集20000条，测试集20000条
BQ: 训练集100000条，验证集10000条，测试集10000条
LCQMC: 训练集238766条，验证集8802条，测试集12500条
PAWSX: 训练集49401条，验证集2000条，测试集2000条
STS-B: 训练集5231条，验证集1458条，测试集1361条

许可证信息

BQ corpus: 免费公开，供学术研究使用

贡献者

shibing624: 添加此数据集
苏剑林: 整理文件名称

AI搜集汇总

数据集介绍

构建方式

该数据集的构建主要基于多个中文语义匹配任务的集成，包括ATEC、BQ、LCQMC、PAWSX和STS-B五个子任务的数据集。这些子任务数据集分别来源于不同的研究领域和学术资源，经过收集、整理和规范化处理后，形成了统一的NLI_zh数据集，旨在为自然语言处理研究提供丰富的中文文本匹配样本。

特点

NLI_zh数据集的特点在于其涵盖了多种中文文本匹配和相似度计算任务，提供了大量标注数据，有利于模型的训练和评估。此外，数据集遵循CC BY 4.0协议，允许学术研究用途的免费使用，促进了学术界的共享与交流。

使用方法

使用NLI_zh数据集时，用户需要首先理解数据集的结构，包括数据实例的格式、字段含义以及数据划分情况。数据集以JSON格式存储，包含'sentence1'、'sentence2'和'label'三个字段。用户可以根据具体任务需求，对数据进行加载、预处理和模型训练等操作，并通过 leaderboard 来评估模型性能。

背景与挑战

背景概述

NLI_zh数据集，由shibing624创建，旨在为中文自然语言推理任务提供高质量的标注数据。该数据集汇集了ATEC、BQ、LCQMC、PAWSX、STS-B等五个子任务的数据，其创建时间为2018年，主要研究人员包括Jing Chen、Qingcai Chen等，及其背后的学术机构。NLI_zh数据集在自然语言处理领域，尤其是语义理解和文本匹配方面，具有重要的研究价值和广泛的应用，对相关领域的技术发展产生了深远影响。

当前挑战

该数据集面临的挑战主要包括：1)保证不同来源数据的一致性和标注质量；2)数据集中存在的潜在偏见和局限性可能影响模型的泛化能力；3)在构建过程中，如何有效整合多个来源的数据，同时处理个人隐私和敏感信息的问题。此外，如何利用该数据集进行跨领域、跨语言的语义理解研究，也是当前面临的挑战之一。

常用场景

经典使用场景

在自然语言处理领域，shibing624/nli_zh数据集被广泛应用于中文文本的语义推理研究。该数据集整合了多个中文语义匹配任务，其经典使用场景在于训练模型以识别并推断两个句子之间的逻辑关系，如蕴含、矛盾或中立关系。

解决学术问题

该数据集解决了中文NLI任务中的标注数据稀缺问题，为研究者提供了丰富的训练和验证资源，有助于推动中文语义理解技术的发展。同时，它也为评估和比较不同模型在中文文本推理任务上的性能提供了一个统一的标准。

衍生相关工作

该数据集的发布催生了大量相关研究工作，如针对不同领域的语义推理任务定制化模型、对数据集进行扩展以涵盖更多语言现象等，进一步推动了中文自然语言处理领域的研究进展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

ICESat-2 Data

ICESat-2 Data 是由美国国家航空航天局（NASA）发布的卫星数据集，主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据，用于研究冰川、海冰、植被和地形变化。

icesat-2.gsfc.nasa.gov 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

AIS数据集

该研究使用了多个公开的AIS数据集，这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶，并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息，总计约6.4亿条记录。

github 收录

中指数据库（物业版）

物业版解决物业企业“找项目”、“找行业和企业数据"的迫切需求，提供高效的市场拓展渠道、最新行业动态、竞品企业的多维度数据，助力企业科学决策。

西部数据交易中心收录