five

hyperdemocracy/usc-nomic-chunks-v1-s8192-o512

收藏
Hugging Face2024-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hyperdemocracy/usc-nomic-chunks-v1-s8192-o512
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - path: data/usc-113-nomic-chunks-v1-s8192-o512.parquet split: '113' - path: data/usc-114-nomic-chunks-v1-s8192-o512.parquet split: '114' - path: data/usc-115-nomic-chunks-v1-s8192-o512.parquet split: '115' - path: data/usc-116-nomic-chunks-v1-s8192-o512.parquet split: '116' - path: data/usc-117-nomic-chunks-v1-s8192-o512.parquet split: '117' - path: data/usc-118-nomic-chunks-v1-s8192-o512.parquet split: '118' dataset_info: features: - dtype: string name: chunk_id - dtype: string name: congress_num - dtype: string name: nomic_topic_depth_1 - dtype: string name: nomic_topic_depth_2 - dtype: string name: nomic_topic_depth_3 - dtype: float32 name: nomic_proj_x - dtype: float32 name: nomic_proj_y - list: dtype: float32 name: nomic_vec - dtype: string name: text - name: chunk_metadata struct: - dtype: string name: chunk_id - dtype: int32 name: chunk_index - dtype: string name: congress_num - dtype: string name: legis_class - dtype: string name: legis_id - dtype: int32 name: legis_num - dtype: string name: legis_type - dtype: string name: legis_version - dtype: int32 name: start_index - dtype: string name: text_date - dtype: string name: text_id - name: bill_metadata struct: - dtype: string name: introduced_date - dtype: string name: origin_chamber - dtype: string name: policy_area - list: dtype: string name: subjects - list: - dtype: string name: bioguide_id - dtype: string name: district - dtype: string name: first_name - dtype: string name: full_name - dtype: string name: is_by_request - dtype: string name: last_name - dtype: string name: middle_name - dtype: string name: party - dtype: string name: state - name: identifiers struct: - dtype: string name: bioguide_id - dtype: string name: lis_id - dtype: string name: gpo_id name: sponsors ---
提供机构:
hyperdemocracy
原始信息汇总

数据集配置

  • 配置名称: default
  • 数据文件路径及分割:
    • data/usc-113-nomic-chunks-v1-s8192-o512.parquet: 分割 113
    • data/usc-114-nomic-chunks-v1-s8192-o512.parquet: 分割 114
    • data/usc-115-nomic-chunks-v1-s8192-o512.parquet: 分割 115
    • data/usc-116-nomic-chunks-v1-s8192-o512.parquet: 分割 116
    • data/usc-117-nomic-chunks-v1-s8192-o512.parquet: 分割 117
    • data/usc-118-nomic-chunks-v1-s8192-o512.parquet: 分割 118

数据集信息

  • 特征:
    • chunk_id: 字符串类型
    • congress_num: 字符串类型
    • nomic_topic_depth_1: 字符串类型
    • nomic_topic_depth_2: 字符串类型
    • nomic_topic_depth_3: 字符串类型
    • nomic_proj_x: 浮点数类型 (float32)
    • nomic_proj_y: 浮点数类型 (float32)
    • nomic_vec: 浮点数列表类型 (float32)
    • text: 字符串类型
    • chunk_metadata: 结构体类型
      • chunk_id: 字符串类型
      • chunk_index: 整数类型 (int32)
      • congress_num: 字符串类型
      • legis_class: 字符串类型
      • legis_id: 字符串类型
      • legis_num: 整数类型 (int32)
      • legis_type: 字符串类型
      • legis_version: 字符串类型
      • start_index: 整数类型 (int32)
      • text_date: 字符串类型
      • text_id: 字符串类型
    • bill_metadata: 结构体类型
      • introduced_date: 字符串类型
      • origin_chamber: 字符串类型
      • policy_area: 字符串类型
      • subjects: 字符串列表类型
      • sponsors: 结构体列表类型
        • bioguide_id: 字符串类型
        • district: 字符串类型
        • first_name: 字符串类型
        • full_name: 字符串类型
        • is_by_request: 字符串类型
        • last_name: 字符串类型
        • middle_name: 字符串类型
        • party: 字符串类型
        • state: 字符串类型
        • identifiers: 结构体类型
          • bioguide_id: 字符串类型
          • lis_id: 字符串类型
          • gpo_id: 字符串类型
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作