five

qgyd2021/sentence_pair

收藏
Hugging Face2023-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qgyd2021/sentence_pair
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含多个中文句子对数据集的集合,主要用于句子相似性任务。数据集涵盖了多个领域和应用场景,如智能客服、医疗问答、金融语义相似度等。每个数据集都有详细的样本示例,展示了句子对及其相似性标签。数据集来源包括公开的竞赛数据、翻译数据集以及原生中文数据集。

This dataset is a composite collection composed of multiple independent Chinese sentence pair datasets, primarily designed for sentence similarity tasks. It spans various domains and application scenarios, such as intelligent customer service, medical question answering, financial semantic similarity, and more. Each included dataset provides detailed sample instances that showcase sentence pairs and their corresponding similarity labels. The sources of this overall dataset cover public competition datasets, translated datasets, and native Chinese datasets.
提供机构:
qgyd2021
原始信息汇总

句子对数据集

数据集从网上收集整理如下:

数据 语言 原始数据/项目地址 样本个数 原始数据描述 替代数据下载地址
ChineseSTS 汉语 ChineseSTS 24.7K STS 中文文本语义相似度(这个数据集好像很多标签是错的,不建议使用。) ChineseSTS
ccks2018_task3 汉语 BQ_corpus; CCKS2018_3 TRAIN: 100K, VALID: 10K, TEST: 10K CCKS 2018 微众银行智能客服问句匹配大赛 BQ_corpus
DIAC2019 汉语 DIAC2019 6K 以问题组的形式提供,每组问句又分为等价部分和不等价部分,等价问句之间互相组合可以生成正样本,等价问句和不等价问句之间互相组合可以生成负样本。我们提供6000组问句的训练集。
LCQMC 汉语 LCQMC; LCQMC; C18-1166.pdf TRAIN: 238766, VALID: 8802, TEST: 12500 百度知道领域的中文问题匹配数据集,目的是为了解决在中文领域大规模问题匹配数据集的缺失。该数据集从百度知道不同领域的用户问题中抽取构建数据。 lcqmc_data
AFQMC 汉语 AFQMC TRAIN: 34334, VALID: 4316, TEST: 3861 蚂蚁金融语义相似度数据集,用于问题相似度计算。即:给定客服里用户描述的两句话,用算法来判断是否表示了相同的语义。 ATEC; ATEC
BUSTM 汉语 BUSTM; BUSTM 总样本数为:177173,其中,匹配样本个数为:54805,不匹配样本个数为:122368 小布助手对话短文本语义匹配比赛数据集 BUSTM
CHIP2019 汉语 CHIP2019 2万 平安医疗科技疾病问答迁移学习比赛数据集(VALID 集没有 label)
COVID-19 汉语 COVID-19 天池新冠疫情相似句对判定大赛 COVID-19
Chinese-MNLI 汉语 Chinese-MNLI TRAIN: 390K, VALID: 12K, TEST: 13K 通过翻译加部分人工修正的方法,从英文原数据集生成(原数据是:蕴含,中性,冲突,的句子推理数据集,已转换为句子对)。
Chinese-SNLI 汉语 Chinese-SNLI TRAIN: 550K, VALID: 10K, TEST: 10K 通过翻译加部分人工修正的方法,从英文原数据集生成(原数据是:蕴含,中性,冲突,的句子推理数据集,已转换为句子对)。
OCNLI 汉语 OCNLI TRAIN: 50K, VALID: 3K, TEST: 3K 原生中文自然语言推理数据集,是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。
STS-B 汉语 STS-B; STS Benchmark TRAIN: 5749, VALID: 1500, TEST: 1379 语义文本相似性基准测试 STS-B; STS-B
PAWSX-ZH 汉语 PAWSX TRAIN: 49.4K, VALID: 2K, TEST: 2K 从 PAWSX翻译成中文的数据集 PAWSX; PAWSX

样本示例

ChineseSTS: 这个数据集好像很多标签是错的,不建议使用。 text 穆斯林认为伊斯兰教的先知(, )是被真主挑选成为他的信使的人物。, 1 咱俩谁跟谁呀。, 我们俩谁跟谁呀。, 1 咱俩谁跟谁呀。, 咱俩关系很好。, 0 他买了王教授一本书。, 他买了王教授的书。, 0

ccks2018_task3: text 用微信都6年,微信没有微粒贷功能, 4。 号码来微粒贷, 0 微信消费算吗, 还有多少钱没还, 0 为什么借款后一直没有给我回拨电话, 怎么申请借款后没有打电话过来呢!, 1 已经在银行换了新预留号码。, 已经在银行换了新预留号码。, 1

DIAC2019: 这个数据集像是从分类数据集组合而来,有很多句子是重复的。 text 人民法院不予受理的民事案件有哪些情形?, 民事诉讼什么情况下不能立案, 0 民事诉讼中对哪些情形的起诉法院不予受理, 人民法院不予受理的民事案件有哪些情形?, 1 民事诉讼中对哪些情形的起诉法院不予受理, 哪些案件会给开具民事诉讼不予立案通知书, 0 民事诉讼中对哪些情形的起诉法院不予受理, 哪些情形下,不予受理民事诉讼申请?, 1

LCQMC: text 喜欢打篮球的男生喜欢什么样的女生, 爱打篮球的男生喜欢什么样的女生, 1 我手机丢了,我想换个手机, 我想买个新手机,求推荐, 1 大家觉得她好看吗, 大家觉得跑男好看吗?, 0 求秋色之空漫画全集, 求秋色之空全集漫画, 1

AFQMC: text 蚂蚁借呗等额还款可以换成先息后本吗, 借呗有先息到期还本吗, 0 蚂蚁花呗说我违约一次, 蚂蚁花呗违约行为是什么, 0 支付宝系统点我的里面没有花呗这一项, 我下载支付宝怎么没有花呗的, 1 花呗消费超过额度有什么影响吗, 花呗额度成负数有啥影响吗, 1

BUSTM: text 叫爸爸叫一声我听听, 那你叫我一声爸爸, 1 十亿韩元等于多少人民币, 一百元人民币, 0 我喜欢你那你喜欢我吗, 你喜欢我不我也喜欢你, 0 你晚上吃了什么, 你晚上吃啥了, 1

CHIP2019: 这个数据集的 validation 子集没有标签。 text 艾滋病窗口期会出现腹泻症状吗, 头疼腹泻四肢无力是不是艾滋病, 0 由于糖尿病引起末梢神经炎,怎么根治?, 糖尿病末梢神经炎的治疗方法, 1 H型高血压,是通所说的高血脂?, 高血压引起脑出血怎么抢救治疗, 0 你好,我60岁,患高血压,80135,爱喝酸奶可以吗?, 高血压糖尿病人可以喝牛奶吗?, 1

COVID-19: text 剧烈运动后咯血,是怎么了?, 剧烈运动后咯血是什么原因?, 1 剧烈运动后咯血,是怎么了?, 剧烈运动后为什么会咯血?, 1 剧烈运动后咯血,是怎么了?, 剧烈运动后咯血,应该怎么处理?, 0 剧烈运动后咯血,是怎么了?, 剧烈运动后咯血,需要就医吗?, 0 剧烈运动后咯血,是怎么了?, 剧烈运动后咯血,是否很严重?, 0

Chinese-MNLI: text 从概念上讲,奶油略读有两个基本维度-产品和地理。, 产品和地理位置是使奶油撇油起作用的原因。, 0 我们的一个号码将执行您的指示。, 我的一个队员会非常精确地执行你的命令。, 1 怎么又知道了?这又是他们的信息。, 这些信息属于他们。, 1 同性恋。, 异性恋者。, 0

STS-B: 这个数据集原本是 0-5 的相似度打分,我把它转换为 >=3 的为相似,其它为不相似。这可能会导致一些问题。 text 一架飞机要起飞了。, 一架飞机正在起飞。, 1 一个男人在吹一支大笛子。, 一个人在吹长笛。, 1 一个人正把切碎的奶酪撒在比萨饼上。, 一个男人正在把切碎的奶酪撒在一块未煮好的比萨饼上。, 1 三个人在下棋。, 两个人在下棋。, 0 一个男人在抽烟。, 一个男人在滑冰。, 0 一个女人在写作。, 一个女人在游泳。, 0

PAWSX-ZH: PAWSX 是一个文本释义的数据集,感觉难度较大,可能不适合用于 FAQ 相似问匹配的任务。 text 1975年的NBA赛季 - 76赛季是全美篮球协会的第30个赛季。, 1975-76赛季的全国篮球协会是NBA的第30个赛季。, 1 当可以保持相当的流速时,结果很高。, 当可以保持可比较的流速时,结果很高。, 1 kBox有助于等长和同心收缩以及离心训练。, kBox有助于偏心以及同心收缩和等长训练。, 0 例如,要输入长度为4厘米的垂直线,绘制就足够了:, 例如,为了绘制4厘米长的垂直线,只需键入:, 0

搜集汇总
数据集介绍
main_image_url
构建方式
qgyd2021/sentence_pair数据集的构建,主要通过网络收集多种来源的句子对,包括中文和英文数据,涵盖了从数十万到数百万不等的样本量。构建过程中,对原始数据进行了筛选和清洗,以确保数据的质量和一致性。数据集包括多种任务类别,如句子相似度、自然语言推理等,旨在为相关任务提供丰富的训练和测试资源。
特点
该数据集的特点在于其多样性和规模性。它不仅包含了中文数据,还涵盖了英文数据,使得研究者在进行跨语言研究时能够利用这一资源。此外,数据集的样本量跨度大,能够满足不同规模研究的需要。数据集还涵盖了多个子数据集,每个子数据集都有其特定的应用领域和任务,如智能客服、疾病问答、自然语言推理等。
使用方法
使用qgyd2021/sentence_pair数据集时,用户可以根据自己的研究需求和任务类型选择相应的子数据集。数据集的使用通常包括数据加载、预处理、模型训练和评估等步骤。对于数据加载,HuggingFace提供了便捷的接口;预处理步骤可能包括数据清洗、格式化等;模型训练时,用户可以根据任务选择合适的模型架构和训练策略;最后,通过测试集评估模型的性能。
背景与挑战
背景概述
qgyd2021/sentence_pair 数据集是一系列专注于句子相似度任务的中英文数据集的集合。该数据集的创建旨在推进自然语言处理领域,特别是在语义理解和文本匹配方面的研究。集合中包含了多个来源的数据集,如ChineseSTS、ccks2018_task3、DIAC2019等,涵盖了从24.7K到数百万不等的样本量。这些数据集多由学术界和产业界合作完成,如百度、阿里等知名机构,主要研究人员包括刘聪等。它们的研究问题集中在如何准确度量句子间的语义相似度,对于提升中文信息处理技术有着重要影响。
当前挑战
在构建qgyd2021/sentence_pair数据集的过程中,研究人员面临了诸多挑战。首先,确保数据质量和标签准确性是一项关键挑战,如ChineseSTS数据集中存在标签错误的问题。其次,构建大规模且具有广泛领域覆盖的数据集,如LCQMC数据集的构建,需要大量的人力物力投入。此外,数据集的多样性和平衡性也是一大挑战,例如在AFQMC和COVID-19数据集中,如何平衡正负样本的比例,以确保模型不会偏向于多数类。最后,针对不同应用场景,如FAQ相似问匹配,数据集的适用性和有效性验证也是必须考虑的挑战。
常用场景
经典使用场景
qgyd2021/sentence_pair数据集广泛应用于自然语言处理领域,特别是在句子相似度计算任务中,它提供了丰富的句子对,用于训练和评估模型对中文文本语义相似度的理解和判断能力。
解决学术问题
该数据集解决了中文自然语言处理中缺乏大规模、高质量句子相似度标注数据的问题,为研究者提供了宝贵的资源,有助于推动中文语义相似度计算技术的发展。
衍生相关工作
基于qgyd2021/sentence_pair数据集,研究者们已经开展了一系列相关工作,包括但不限于构建更高效的文本相似度计算模型、探索跨领域的句子匹配技术,以及结合深度学习方法的语义理解研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作