stanfordnlp/snli|自然语言处理数据集|文本分类数据集
收藏数据集概述
名称: Stanford Natural Language Inference (SNLI)
语言: 英语 (en)
许可证: Creative Commons Attribution-ShareAlike 4.0 International License (cc-by-sa-4.0)
多语言性: 单语种
大小: 100K<n<1M
任务类别: 文本分类
任务ID: 自然语言推理, 多输入文本分类
数据集信息:
- 配置名称: plain_text
- 特征:
- premise: 字符串类型
- hypothesis: 字符串类型
- label: 分类标签,包括0: entailment, 1: neutral, 2: contradiction
- 数据分割:
- train: 550,152个实例
- validation: 10,000个实例
- test: 10,000个实例
数据集结构
- 数据实例: 每个实例包含一个前提、一个假设和一个标签。
- 数据字段:
- premise: 用于判断假设真实性的字符串。
- hypothesis: 可能为真、假或与前提比较时真值条件未知的字符串。
- label: 整数,表示假设与前提的关系,0表示假设蕴含前提,1表示两者既不蕴含也不矛盾,2表示假设与前提矛盾。
数据集创建
- 来源数据: 数据集扩展自Flickr-30k和Visual Genome。
- 注释: 由Amazon Mechanical Turk的众包工作者创建。
- 个人和敏感信息: 数据集可能包含原始Flickr照片中人物的描述,但不包含作者或众包工作者的个人身份信息。
使用数据集的考虑
- 社会影响: 数据集用于评估文本表示系统,特别是那些通过表示学习方法诱导的系统。
- 偏见讨论: 数据集中的语言反映了从Flickr收集的照片内容,可能包含性别等身份类别的刻板印象。
- 其他已知限制: 数据集存在注释工件,如Poliak et al. (2018)所示,可以在不使用前提的情况下正确预测假设标签的69%。
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录