alisawuffles/WANLI|自然语言推理数据集|人工智能数据集
收藏数据集概述
数据集名称
- 名称: WANLI
- 全称: Worker-AI Collaboration for NLI
数据集基本信息
- 语言: 英语
- 许可证: CC-BY-4.0
- 多语言性: 单语
- 大小: 100K<n<1M
- 来源: 原创数据集
- 任务类别: 文本分类
- 任务ID: 自然语言推理
数据集内容
- 描述: WANLI是一个包含108K英语句子对的集合,用于自然语言推理任务。每个例子首先在MultiNLI中识别出一个“口袋”的例子,这些例子共享一个具有挑战性的推理模式,然后指示GPT-3根据相同的模式编写新的例子。
- 支持任务: 自然语言推理,确定一个前提是否蕴含(即暗示假设的真实性),两者均以自然语言表达。
- 数据实例结构:
- id: 唯一标识符
- premise: 文本片段
- hypothesis: 可能是真、假或其真值条件可能不可知的文本片段
- gold: 包含
entailment
,neutral
,contradiction
之一 - genre: 包含
generated
和generated_revised
- pairID: 种子MNLI例子的ID
数据集创建
- 数据收集: 从MultiNLI数据集中自动识别具有挑战性推理模式的例子,使用GPT-3生成新例子,并通过人工标注者进行验证和修订。
- 标注过程: 标注者被要求对未标注的例子进行质量修订(同时尽可能保留原始意图),并分配标签。如果例子需要大量修订或可能被视为冒犯性,则要求丢弃。
- 标注者: 要求具有98%的HIT批准率,总共10,000个批准的HIT,并位于美国。最终有62名工人参与了数据集的创建。
使用考虑
- 社会影响: 该数据集旨在探索工人-AI协作在数据集策展中的潜力,训练更强大的NLI模型,并提供对现有系统的更具挑战性的评估。
- 偏见讨论: 大型预训练语言模型生成的文本可能延续社会危害和包含有毒语言。为此,要求标注者丢弃任何可能被视为冒犯性的例子。
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
OpenPose
OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。
github.com 收录
全国 1∶200 000 数字地质图(公开版)空间数据库
As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.
DataCite Commons 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录