five

hyperdemocracy/usc-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5

收藏
Hugging Face2024-02-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hyperdemocracy/usc-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - path: data/usc-113-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet split: '113' - path: data/usc-114-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet split: '114' - path: data/usc-115-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet split: '115' - path: data/usc-116-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet split: '116' - path: data/usc-117-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet split: '117' - path: data/usc-118-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet split: '118' dataset_info: features: - dtype: string name: chunk_id - dtype: string name: text_id - dtype: string name: legis_id - dtype: string name: text - list: dtype: float32 name: vec - name: metadata struct: - dtype: string name: chunk_id - dtype: int32 name: chunk_index - dtype: string name: congress_num - dtype: string name: legis_class - dtype: string name: legis_id - dtype: int32 name: legis_num - dtype: string name: legis_type - dtype: string name: legis_version - dtype: int32 name: start_index - dtype: string name: text_date - dtype: string name: text_id ---

配置项: - 配置名称:default(默认) 数据文件: - 路径:data/usc-113-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet,拆分集:'113' - 路径:data/usc-114-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet,拆分集:'114' - 路径:data/usc-115-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet,拆分集:'115' - 路径:data/usc-116-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet,拆分集:'116' - 路径:data/usc-117-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet,拆分集:'117' - 路径:data/usc-118-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet,拆分集:'118' 数据集信息: 特征: - 数据类型:字符串(string),名称:chunk_id(分块ID) - 数据类型:字符串(string),名称:text_id(文本ID) - 数据类型:字符串(string),名称:legis_id(立法文件ID) - 数据类型:字符串(string),名称:text(文本内容) - 列表类型:单精度浮点数(float32),名称:vec(向量) - 名称:metadata(元数据),结构体: - 数据类型:字符串(string),名称:chunk_id(分块ID) - 数据类型:32位整数(int32),名称:chunk_index(分块索引) - 数据类型:字符串(string),名称:congress_num(国会届数) - 数据类型:字符串(string),名称:legis_class(立法文件类别) - 数据类型:字符串(string),名称:legis_id(立法文件ID) - 数据类型:32位整数(int32),名称:legis_num(立法文件编号) - 数据类型:字符串(string),名称:legis_type(立法文件类型) - 数据类型:字符串(string),名称:legis_version(立法文件版本) - 数据类型:32位整数(int32),名称:start_index(起始索引) - 数据类型:字符串(string),名称:text_date(文本日期) - 数据类型:字符串(string),名称:text_id(文本ID)
提供机构:
hyperdemocracy
原始信息汇总

数据集概述

数据文件配置

  • 默认配置
    • 文件路径: data/usc-113-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet
      • 分割: 113
    • 文件路径: data/usc-114-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet
      • 分割: 114
    • 文件路径: data/usc-115-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet
      • 分割: 115
    • 文件路径: data/usc-116-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet
      • 分割: 116
    • 文件路径: data/usc-117-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet
      • 分割: 117
    • 文件路径: data/usc-118-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet
      • 分割: 118

数据集特征

  • 数据类型: string
    • 名称: chunk_id
    • 名称: text_id
    • 名称: legis_id
    • 名称: text
  • 数据类型: list of float32
    • 名称: vec
  • 数据类型: struct
    • 名称: metadata
      • 数据类型: string
        • 名称: chunk_id
      • 数据类型: int32
        • 名称: chunk_index
      • 数据类型: string
        • 名称: congress_num
      • 数据类型: string
        • 名称: legis_class
      • 数据类型: string
        • 名称: legis_id
      • 数据类型: int32
        • 名称: legis_num
      • 数据类型: string
        • 名称: legis_type
      • 数据类型: string
        • 名称: legis_version
      • 数据类型: int32
        • 名称: start_index
      • 数据类型: string
        • 名称: text_date
      • 数据类型: string
        • 名称: text_id
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作