clinc/clinc_oos|意图分类数据集|超出范围查询数据集
收藏数据集概述
基本信息
- 数据集名称: CLINC150
- 语言: 英语
- 许可证: CC-BY-3.0
- 多语言性: 单语种
- 数据集大小: 10K<n<100K
- 源数据: 原始数据
- 任务类别: 文本分类
- 任务ID: 意图分类
- PapersWithCode ID: clinc150
- 别名: CLINC150
数据集配置
配置名称: imbalanced
- 特征:
text
: 字符串intent
: 类别标签,包含151个类别
- 分割:
train
: 10625个样本,546901字节validation
: 3100个样本,160298字节test
: 5500个样本,286966字节
- 下载大小: 441918字节
- 数据集大小: 994165字节
配置名称: plus
- 特征:
text
: 字符串intent
: 类别标签,包含151个类别
- 分割:
train
: 15250个样本,791247字节validation
: 3100个样本,160298字节test
: 5500个样本,286966字节
- 下载大小: 525729字节
- 数据集大小: 1238511字节
配置名称: small
- 特征:
text
: 字符串intent
: 类别标签,包含151个类别
- 分割:
train
: 7600个样本,394124字节validation
: 3100个样本,160298字节test
: 5500个样本,286966字节
- 下载大小: 385185字节
- 数据集大小: 841388字节
数据字段
text
: 文本数据label
: 150个意图类别,涵盖10个领域,包含一个“out-of-scope”意图标签。
数据分割
- imbalanced:
train
: 10625个样本validation
: 3100个样本test
: 5500个样本
- plus:
train
: 15250个样本validation
: 3100个样本test
: 5500个样本
- small:
train
: 7600个样本validation
: 3100个样本test
: 5500个样本

Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
koen430/relevant_selected_stock_news
该数据集包含通过GPT-3.5-turbo筛选出的新闻文章,旨在用于微调大型语言模型,以预测新闻发布后的股票价格变动。数据集包括多个特征,如股票代码、提示、文本、URL、结果、相关性、令牌计数等,并分为训练集、验证集和测试集。
hugging_face 收录
NREL Wind Integration National Dataset (WIND) Toolkit
NREL Wind Integration National Dataset (WIND) Toolkit 是一个包含美国大陆风能资源和电力系统集成数据的综合数据集。该数据集提供了高分辨率的风速、风向、风能密度、电力输出等数据,覆盖了美国大陆的多个地理区域。这些数据有助于研究人员和工程师进行风能资源评估、电力系统规划和集成研究。
www.nrel.gov 收录
Online Retail II
该在线零售II数据集包含了一家英国注册的非实体店铺在线零售商在2009年12月1日至2011年12月9日期间发生的所有交易记录。该公司主要销售各种场合的独特礼品。该公司的许多客户是批发商。
github 收录