serhii-korobchenko/github-issues-embeddings
收藏Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/serhii-korobchenko/github-issues-embeddings
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个字段,如html_url、comments、title、body、comment_length、text和embeddings,涵盖了URL、评论、标题、正文、评论长度、文本内容以及嵌入向量等信息。数据集主要用于训练,包含5034个样本,总大小为44924892字节。
该数据集包含多个字段,如html_url、comments、title、body、comment_length、text和embeddings,涵盖了URL、评论、标题、正文、评论长度、文本内容以及嵌入向量等信息。数据集主要用于训练,包含5034个样本,总大小为44924892字节。
提供机构:
serhii-korobchenko
原始信息汇总
数据集概述
数据特征
- html_url: 字符串类型
- comments: 字符串类型
- title: 字符串类型
- body: 字符串类型
- comment_length: 整数类型 (int64)
- text: 字符串类型
- embeddings: 浮点数序列 (float32)
数据分割
- train:
- 字节数: 44924892
- 样本数: 5034
数据集大小
- 下载大小: 23623074 字节
- 数据集大小: 44924892 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



