hyperdemocracy/usc-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5
收藏Hugging Face2024-02-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hyperdemocracy/usc-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- path: data/usc-113-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet
split: '113'
- path: data/usc-114-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet
split: '114'
- path: data/usc-115-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet
split: '115'
- path: data/usc-116-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet
split: '116'
- path: data/usc-117-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet
split: '117'
- path: data/usc-118-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet
split: '118'
dataset_info:
features:
- dtype: string
name: chunk_id
- dtype: string
name: text_id
- dtype: string
name: legis_id
- dtype: string
name: text
- list:
dtype: float32
name: vec
- name: metadata
struct:
- dtype: string
name: chunk_id
- dtype: int32
name: chunk_index
- dtype: string
name: congress_num
- dtype: string
name: legis_class
- dtype: string
name: legis_id
- dtype: int32
name: legis_num
- dtype: string
name: legis_type
- dtype: string
name: legis_version
- dtype: int32
name: start_index
- dtype: string
name: text_date
- dtype: string
name: text_id
---
配置项:
- 配置名称:default(默认)
数据文件:
- 路径:data/usc-113-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet,拆分集:'113'
- 路径:data/usc-114-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet,拆分集:'114'
- 路径:data/usc-115-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet,拆分集:'115'
- 路径:data/usc-116-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet,拆分集:'116'
- 路径:data/usc-117-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet,拆分集:'117'
- 路径:data/usc-118-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet,拆分集:'118'
数据集信息:
特征:
- 数据类型:字符串(string),名称:chunk_id(分块ID)
- 数据类型:字符串(string),名称:text_id(文本ID)
- 数据类型:字符串(string),名称:legis_id(立法文件ID)
- 数据类型:字符串(string),名称:text(文本内容)
- 列表类型:单精度浮点数(float32),名称:vec(向量)
- 名称:metadata(元数据),结构体:
- 数据类型:字符串(string),名称:chunk_id(分块ID)
- 数据类型:32位整数(int32),名称:chunk_index(分块索引)
- 数据类型:字符串(string),名称:congress_num(国会届数)
- 数据类型:字符串(string),名称:legis_class(立法文件类别)
- 数据类型:字符串(string),名称:legis_id(立法文件ID)
- 数据类型:32位整数(int32),名称:legis_num(立法文件编号)
- 数据类型:字符串(string),名称:legis_type(立法文件类型)
- 数据类型:字符串(string),名称:legis_version(立法文件版本)
- 数据类型:32位整数(int32),名称:start_index(起始索引)
- 数据类型:字符串(string),名称:text_date(文本日期)
- 数据类型:字符串(string),名称:text_id(文本ID)
提供机构:
hyperdemocracy
原始信息汇总
数据集概述
数据文件配置
- 默认配置
- 文件路径:
data/usc-113-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet- 分割:
113
- 分割:
- 文件路径:
data/usc-114-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet- 分割:
114
- 分割:
- 文件路径:
data/usc-115-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet- 分割:
115
- 分割:
- 文件路径:
data/usc-116-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet- 分割:
116
- 分割:
- 文件路径:
data/usc-117-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet- 分割:
117
- 分割:
- 文件路径:
data/usc-118-vecs-v1-s1024-o256-BAAI-bge-small-en-v1.5.parquet- 分割:
118
- 分割:
- 文件路径:
数据集特征
- 数据类型: string
- 名称:
chunk_id - 名称:
text_id - 名称:
legis_id - 名称:
text
- 名称:
- 数据类型: list of float32
- 名称:
vec
- 名称:
- 数据类型: struct
- 名称:
metadata- 数据类型: string
- 名称:
chunk_id
- 名称:
- 数据类型: int32
- 名称:
chunk_index
- 名称:
- 数据类型: string
- 名称:
congress_num
- 名称:
- 数据类型: string
- 名称:
legis_class
- 名称:
- 数据类型: string
- 名称:
legis_id
- 名称:
- 数据类型: int32
- 名称:
legis_num
- 名称:
- 数据类型: string
- 名称:
legis_type
- 名称:
- 数据类型: string
- 名称:
legis_version
- 名称:
- 数据类型: int32
- 名称:
start_index
- 名称:
- 数据类型: string
- 名称:
text_date
- 名称:
- 数据类型: string
- 名称:
text_id
- 名称:
- 数据类型: string
- 名称:



