shibing624/sts-sohu2021
收藏Hugging Face2023-06-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shibing624/sts-sohu2021
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- shibing624
language_creators:
- shibing624
language:
- zh
license:
- cc-by-4.0
multilinguality:
- zh
size_categories:
- 100K<n<20M
source_datasets:
- https://www.biendata.xyz/competition/sohu_2021/data/
task_categories:
- text-classification
- sentence-similarity
task_ids:
- natural-language-inference
- semantic-similarity-scoring
- text-scoring
paperswithcode_id: sts
pretty_name: Sentence Text Similarity SOHU2021
---
# Dataset Card for sts-sohu2021
## Dataset Description
- **Repository:** [Chinese NLI dataset](https://github.com/shibing624/text2vec)
- **Leaderboard:** [NLI_zh leaderboard](https://github.com/shibing624/text2vec) (located on the homepage)
- **Size of downloaded dataset files:** 218 MB
- **Total amount of disk used:** 218 MB
### Dataset Summary
2021搜狐校园文本匹配算法大赛数据集
- 数据源:https://www.biendata.xyz/competition/sohu_2021/data/
分为 A 和 B 两个文件,A 和 B 文件匹配标准不一样。其中 A 和 B 文件又分为“短短文本匹配”、“短长文本匹配”和“长长文本匹配”。
A 文件匹配标准较为宽泛,两段文字是同一个话题便视为匹配,B 文件匹配标准较为严格,两段文字须是同一个事件才视为匹配。
数据类型:
| type | 数据类型 |
| --- | ------------|
| dda | 短短匹配 A 类 |
| ddb | 短短匹配 B 类 |
| dca | 短长匹配 A 类 |
| dcb | 短长匹配 B 类 |
| cca | 长长匹配 A 类 |
| ccb | 长长匹配 B 类 |
### Supported Tasks and Leaderboards
Supported Tasks: 支持中文文本匹配任务,文本相似度计算等相关任务。
中文匹配任务的结果目前在顶会paper上出现较少,我罗列一个我自己训练的结果:
**Leaderboard:** [NLI_zh leaderboard](https://github.com/shibing624/text2vec)
### Languages
数据集均是简体中文文本。
## Dataset Structure
### Data Instances
An example of 'train' looks as follows.
```python
# A 类 短短 样本示例
{
"sentence1": "小艺的故事让爱回家2021年2月16日大年初五19:30带上你最亲爱的人与团团君相约《小艺的故事》直播间!",
"sentence2": "香港代购了不起啊,宋点卷竟然在直播间“炫富”起来",
"label": 0
}
# B 类 短短 样本示例
{
"sentence1": "让很多网友好奇的是,张柏芝在一小时后也在社交平台发文:“给大家拜年啦。”还有网友猜测:谢霆锋的经纪人发文,张柏芝也发文,并且配图,似乎都在证实,谢霆锋依旧和王菲在一起,而张柏芝也有了新的恋人,并且生了孩子,两人也找到了各自的归宿,有了自己的幸福生活,让传言不攻自破。",
"sentence2": "陈晓东谈旧爱张柏芝,一个口误暴露她的秘密,难怪谢霆锋会离开她",
"label": 0
}
```
label: 0表示不匹配,1表示匹配。
### Data Fields
The data fields are the same among all splits.
- `sentence1`: a `string` feature.
- `sentence2`: a `string` feature.
- `label`: a classification label, with possible values including `similarity` (1), `dissimilarity` (0).
### Data Splits
```shell
> wc -l *.jsonl
11690 cca.jsonl
11690 ccb.jsonl
11592 dca.jsonl
11593 dcb.jsonl
11512 dda.jsonl
11501 ddb.jsonl
69578 total
```
### Curation Rationale
作为中文NLI(natural langauge inference)数据集,这里把这个数据集上传到huggingface的datasets,方便大家使用。
#### Who are the source language producers?
数据集的版权归原作者所有,使用各数据集时请尊重原数据集的版权。
#### Who are the annotators?
原作者。
### Social Impact of Dataset
This dataset was developed as a benchmark for evaluating representational systems for text, especially including those induced by representation learning methods, in the task of predicting truth conditions in a given context.
Systems that are successful at such a task may be more successful in modeling semantic representations.
### Licensing Information
用于学术研究。
### Contributions
[shibing624](https://github.com/shibing624) upload this dataset.
注释生成方:
- shibing624
语言生成方:
- shibing624
语言:
- zh
许可证:
- cc-by-4.0
多语言属性:
- zh
数据规模区间:
- 100K<n<20M
源数据集:
- https://www.biendata.xyz/competition/sohu_2021/data/
任务类别:
- 文本分类
- 句子相似度
任务子类型:
- 自然语言推理(Natural Language Inference)
- 语义相似度评分
- 文本评分
PapersWithCode ID: sts
数据集展示名称: Sentence Text Similarity SOHU2021
---
# sts-sohu2021 数据集卡片
## 数据集说明
- **代码仓库:** [中文自然语言推理(Natural Language Inference,NLI)数据集](https://github.com/shibing624/text2vec)
- **排行榜:** [中文NLI排行榜](https://github.com/shibing624/text2vec)(位于项目主页)
- **下载数据集文件总大小:** 218 MB
- **占用磁盘总空间:** 218 MB
### 数据集概览
2021搜狐校园文本匹配算法大赛数据集。数据源:https://www.biendata.xyz/competition/sohu_2021/data/。
数据集分为A、B两个文件,二者匹配标准存在差异。A、B文件均涵盖“短文本-短文本匹配”“短文本-长文本匹配”“长文本-长文本匹配”三类任务。其中A类匹配标准较为宽松,仅需两段文字属于同一话题即可判定为匹配;B类匹配标准更为严格,要求两段文字对应同一事件方可判定为匹配。
数据类型对应如下:
| 类型标识 | 数据分类 |
|--------|------------------------|
| dda | 短文本-短文本匹配A类 |
| ddb | 短文本-短文本匹配B类 |
| dca | 短文本-长文本匹配A类 |
| dcb | 短文本-长文本匹配B类 |
| cca | 长文本-长文本匹配A类 |
| ccb | 长文本-长文本匹配B类 |
### 支持任务与排行榜
支持的任务包括中文文本匹配、文本相似度计算等相关任务。目前中文匹配任务的相关研究成果在顶会论文中较为少见,此处列出作者自行训练的模型结果:排行榜:[中文NLI排行榜](https://github.com/shibing624/text2vec)
### 语言类型
数据集所有文本均为简体中文。
## 数据集结构
### 数据样例
训练集(train)的一个样例如下:
python
# A类 短文本-短文本匹配 样本示例
{
"sentence1": "小艺的故事让爱回家2021年2月16日大年初五19:30带上你最亲爱的人与团团君相约《小艺的故事》直播间!",
"sentence2": "香港代购了不起啊,宋点卷竟然在直播间“炫富”起来",
"label": 0
}
# B类 短文本-短文本匹配 样本示例
{
"sentence1": "让很多网友好奇的是,张柏芝在一小时后也在社交平台发文:“给大家拜年啦。”还有网友猜测:谢霆锋的经纪人发文,张柏芝也发文,并且配图,似乎都在证实,谢霆锋依旧和王菲在一起,而张柏芝也有了新的恋人,并且生了孩子,两人也找到了各自的归宿,有了自己的幸福生活,让传言不攻自破。",
"sentence2": "陈晓东谈旧爱张柏芝,一个口误暴露她的秘密,难怪谢霆锋会离开她",
"label": 0
}
label为0表示两段文本不匹配,为1表示匹配。
### 数据字段
所有数据拆分(split)的数据字段均保持一致:
- `sentence1`:字符串(string)类型特征,代表第一段输入文本
- `sentence2`:字符串(string)类型特征,代表第二段输入文本
- `label`:分类标签,可选值包括`similarity`(1,匹配)与`dissimilarity`(0,不匹配)
### 数据拆分
通过`wc -l *.jsonl`命令统计得到各文件行数如下:
shell
> wc -l *.jsonl
11690 cca.jsonl
11690 ccb.jsonl
11592 dca.jsonl
11593 dcb.jsonl
11512 dda.jsonl
11501 ddb.jsonl
69578 total
### 数据集构建初衷
作为中文自然语言推理(Natural Language Inference,NLI)数据集,本数据集被上传至Hugging Face Datasets平台,以方便广大研究者便捷使用。
#### 原始文本生产者是谁?
数据集版权归原作者所有,使用本数据集时请尊重其版权声明。
#### 标注人员是谁?
原数据集作者。
### 数据集社会影响
本数据集被开发作为文本表征系统的评估基准,尤其适用于通过表征学习方法得到的模型,用于预测给定上下文下的真值条件任务。能够在该任务中取得优异表现的系统,往往在语义表征建模方面也能获得更佳效果。
### 许可证信息
仅可用于学术研究用途。
### 贡献说明
[shibing624](https://github.com/shibing624) 上传本数据集至Hugging Face Datasets平台。
提供机构:
shibing624
原始信息汇总
数据集概述
数据集描述
- 名称: Sentence Text Similarity SOHU2021
- 语言: 中文
- 许可证: cc-by-4.0
- 大小: 100K<n<20M
- 来源: https://www.biendata.xyz/competition/sohu_2021/data/
- 任务类别:
- 文本分类
- 句子相似度
- 任务ID:
- 自然语言推理
- 语义相似度评分
- 文本评分
数据集结构
数据实例
-
训练样本示例:
-
A类短短样本: python { "sentence1": "小艺的故事让爱回家2021年2月16日大年初五19:30带上你最亲爱的人与团团君相约《小艺的故事》直播间!", "sentence2": "香港代购了不起啊,宋点卷竟然在直播间“炫富”起来", "label": 0 }
-
B类短短样本: python { "sentence1": "让很多网友好奇的是,张柏芝在一小时后也在社交平台发文:“给大家拜年啦。”还有网友猜测:谢霆锋的经纪人发文,张柏芝也发文,并且配图,似乎都在证实,谢霆锋依旧和王菲在一起,而张柏芝也有了新的恋人,并且生了孩子,两人也找到了各自的归宿,有了自己的幸福生活,让传言不攻自破。", "sentence2": "陈晓东谈旧爱张柏芝,一个口误暴露她的秘密,难怪谢霆锋会离开她", "label": 0 }
-
-
标签: 0表示不匹配,1表示匹配。
数据字段
sentence1: 字符串类型sentence2: 字符串类型label: 分类标签,值为相似(1)或不相似(0)
数据分割
- 总计行数: 69578
- 各文件行数:
- cca.jsonl: 11690
- ccb.jsonl: 11690
- dca.jsonl: 11592
- dcb.jsonl: 11593
- dda.jsonl: 11512
- ddb.jsonl: 11501
支持的任务和排行榜
- 支持的任务: 中文文本匹配任务,文本相似度计算等相关任务。
- 排行榜: NLI_zh leaderboard
搜集汇总
数据集介绍

构建方式
在中文自然语言处理领域,文本相似度评估是语义理解的核心任务之一。该数据集源自2021年搜狐校园文本匹配算法大赛,其构建过程依托于公开竞赛平台提供的原始语料。数据采集后,依据匹配标准的严格程度划分为A、B两类,并进一步细分为短短文本、短长文本及长长文本三种匹配类型,共计六种子类别。每条数据样本均包含两个文本片段及人工标注的匹配标签,标签0表示不匹配,1表示匹配,整体数据规模约七万条,覆盖了多样化的中文语境与话题。
特点
本数据集的显著特点在于其多层次的结构化设计。它不仅区分了宽松的话题匹配与严格的事件匹配,还涵盖了不同长度文本的组合,从而模拟了真实场景中复杂的语义关联模式。数据实例均为简体中文,内容涉及社会、娱乐、生活等多个领域,具有较高的代表性与实用性。此外,数据集以JSONL格式存储,结构清晰,字段统一,便于直接应用于模型训练与评估,为中文自然语言推理任务提供了宝贵的基准资源。
使用方法
该数据集适用于文本分类、句子相似度计算及自然语言推理等任务。使用者可通过加载HuggingFace的datasets库直接访问,并依据任务需求选择特定的数据子集进行模型训练。在预处理阶段,建议对文本进行标准化清洗,并可根据标签分布进行平衡采样。训练完成后,模型性能可参考相关开源排行榜进行评估。需要注意的是,数据集仅限学术研究用途,使用时须遵循CC BY 4.0许可协议,并尊重原始数据版权。
背景与挑战
背景概述
在自然语言处理领域,文本语义相似度计算是理解语言深层含义的核心任务之一,尤其对于中文这类语义丰富、表达灵活的语言,构建高质量评估基准显得尤为重要。2021年,搜狐校园文本匹配算法大赛推出了sts-sohu2021数据集,由研究者shibing624整理并公开,旨在为中文自然语言推理与文本匹配研究提供标准化资源。该数据集聚焦于短文本与长文本之间的语义关联性判断,依据话题匹配与事件匹配的双重标准,划分了六种细粒度文本对类型,涵盖了从宽松到严格的语义相似度评估维度,为中文语义表示学习模型提供了重要的性能评测平台,推动了中文自然语言理解技术在学术界与工业界的应用发展。
当前挑战
sts-sohu2021数据集所针对的文本语义相似度计算任务,面临中文语言特有的挑战:一是中文词汇的多义性与语境依赖性较强,模型需精准捕捉细微语义差异;二是数据集中包含短长文本与长长文本的混合匹配,要求模型具备跨长度文本的语义对齐能力。在构建过程中,挑战主要体现在标注标准的制定:A类数据以话题匹配为基准,B类数据则严格限定为事件匹配,这种双重标准增加了数据标注的一致性难度,同时需确保不同文本长度组合下的样本平衡性与代表性,以全面反映真实场景下的语义关联复杂性。
常用场景
经典使用场景
在自然语言处理领域,文本相似度计算是核心任务之一,尤其对于中文语境下的语义理解具有重要价值。shibing624/sts-sohu2021数据集作为2021搜狐校园文本匹配算法大赛的基准数据,其经典使用场景聚焦于中文文本匹配任务。该数据集通过提供‘短短文本匹配’、‘短长文本匹配’和‘长长文本匹配’等多种类型,并区分A类(话题匹配)与B类(事件匹配)的严格标准,为研究者构建了多层次的评估框架。在模型训练与验证过程中,该数据集常用于微调预训练语言模型,以提升其在中文语义相似度判断上的性能,特别是在自然语言推理和文本分类任务中,为算法优化提供了丰富的标注样本。
解决学术问题
该数据集有效解决了中文自然语言处理中语义相似度评估的若干学术问题。传统上,中文文本匹配任务缺乏大规模、高质量且标注标准多样的基准数据,导致模型泛化能力受限。shibing624/sts-sohu2021通过引入话题匹配与事件匹配的双重标准,区分了语义关联的宽泛性与严格性,从而促进了模型在细粒度语义理解上的研究。其意义在于填补了中文NLI数据集领域的空白,为评估表示学习方法的语义建模能力提供了可靠基准,推动了中文语义表示技术的发展,并在顶会论文中逐渐成为相关工作的参考依据。
衍生相关工作
基于shibing624/sts-sohu2021数据集,衍生了一系列经典研究工作,主要集中在中文文本匹配模型的创新与优化上。例如,研究者利用该数据集训练和评估了多种预训练模型,如BERT和RoBERTa的中文变体,以提升其在语义相似度任务上的表现。相关成果被整合到开源工具如text2vec中,形成了中文NLI任务的公开排行榜,促进了社区内的技术交流与竞争。这些工作不仅推动了中文自然语言推理领域的发展,还为后续数据集构建和模型评估提供了方法论参考,形成了良性循环的研究生态。
以上内容由遇见数据集搜集并总结生成



