shibing624/nli_zh|自然语言处理数据集|语义匹配数据集
收藏数据集概述
数据集描述
- 名称: NLI_zh
- 语言: 中文(简体)
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 大小: 100K<n<20M
- 任务类别: 文本分类
- 任务ID: 自然语言推理, 语义相似度评分, 文本评分
- 论文代码ID: snli
- 美观名称: Stanford Natural Language Inference
数据集结构
数据实例
json { "sentence1": "刘诗诗杨幂谁漂亮", "sentence2": "刘诗诗和杨幂谁漂亮", "label": 1 } { "sentence1": "汇理财怎么样", "sentence2": "怎么样去理财", "label": 0 }
数据字段
sentence1
: 字符串类型sentence2
: 字符串类型label
: 分类标签,可能的值为相似
(1)和不相似
(0)
数据集创建
源数据
- ATEC: https://github.com/IceFlameWorm/NLP_Datasets/tree/master/ATEC
- BQ: http://icrc.hitsz.edu.cn/info/1037/1162.htm
- LCQMC: http://icrc.hitsz.edu.cn/Article/show/171.html
- PAWSX: https://arxiv.org/abs/1908.11828
- STS-B: https://github.com/pluto-junzeng/CNSD
数据集分割
- ATEC: 训练集62477条,验证集20000条,测试集20000条
- BQ: 训练集100000条,验证集10000条,测试集10000条
- LCQMC: 训练集238766条,验证集8802条,测试集12500条
- PAWSX: 训练集49401条,验证集2000条,测试集2000条
- STS-B: 训练集5231条,验证集1458条,测试集1361条
许可证信息
- BQ corpus: 免费公开,供学术研究使用
贡献者
- shibing624: 添加此数据集
- 苏剑林: 整理文件名称

Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
ICESat-2 Data
ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。
icesat-2.gsfc.nasa.gov 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
中指数据库(物业版)
物业版解决物业企业“找项目”、“找行业和企业数据"的迫切需求,提供高效的市场拓展渠道、最新行业动态、竞品企业的多维度数据,助力企业科学决策。
西部数据交易中心 收录