nedith22/cats_and_dogs|图像分类数据集|动物识别数据集
收藏数据集概述
基本信息
- 名称: cats_and_dogs
- 描述: nedith22/cats_and_dogs 数据集托管在 HF Mirror 并由 HF Datasets 社区贡献。
- 别名: nedith22/cats_and_dogs
- 创建者: Edith
- URL: https://hf-mirror.com/datasets/nedith22/cats_and_dogs
数据集详情
- 符合标准: http://mlcommons.org/croissant/1.0
- 关键词:
- < 1K
- parquet
- Image
- Datasets
- pandas
- Croissant
- 🇺🇸 Region: US
数据分布
-
类型: cr:FileObject
- 名称: repo
- 描述: HF Mirror git 仓库。
- 内容 URL: https://hf-mirror.com/datasets/nedith22/cats_and_dogs/tree/refs%2Fconvert%2Fparquet
- 编码格式: git+https
- SHA256: https://github.com/mlcommons/croissant/issues/80
-
类型: cr:FileSet
- 名称: parquet-files-for-config-default
- 描述: 由 HF Mirror 转换的基础 Parquet 文件(参见:https://hf-mirror.com/docs/datasets-server/parquet)。
- 包含于: repo
- 编码格式: application/x-parquet
- 包含: default//.parquet
记录集
- 类型: cr:RecordSet
- 名称: default
- 描述: nedith22/cats_and_dogs - default 子集
- 2 个分割: train, test
字段
-
类型: cr:Field
- 名称: default/image
- 描述: 来自 HF Mirror Parquet 文件的图像列 image。
- 数据类型: sc:ImageObject
- 来源:
- 文件集: parquet-files-for-config-default
- 提取: 列 image
- 转换: jsonPath bytes
-
类型: cr:Field
- 名称: default/labels
- 描述: 来自 HF Mirror Parquet 文件的 ClassLabel 列 labels。
- 标签: cat (0), dog (1)
- 数据类型: sc:Integer
- 来源:
- 文件集: parquet-files-for-config-default
- 提取: 列 labels

Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
ChinaTravel
ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。
arXiv 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
中国知识产权局专利数据库
该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。
www.cnipa.gov.cn 收录