mayankkeshari/hotpotqa-sentence-retrieval-with-scores
收藏Hugging Face2025-12-08 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/mayankkeshari/hotpotqa-sentence-retrieval-with-scores
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: query_id
dtype: string
- name: passage_id
dtype: string
- name: sentence_hash
dtype: string
- name: query
dtype: string
- name: answer
dtype: string
- name: query_type
dtype: string
- name: query_level
dtype: string
- name: passage
dtype: string
- name: passage_idx
dtype: int32
- name: title
dtype: string
- name: num_sentences_in_passage
dtype: int32
- name: sentence
dtype: string
- name: sentence_idx
dtype: int32
- name: sentence_char_start
dtype: int32
- name: sentence_char_end
dtype: int32
- name: relevant
dtype:
class_label:
names:
'0': not_relevant
'1': relevant
- name: source_split
dtype: string
- name: original_split
dtype: string
- name: sentence_attn_score
dtype: float64
- name: sentence_attn_score_normalized
dtype: float64
- name: passage_reranker_score
dtype: float64
splits:
- name: train
num_bytes: 3825021997
num_examples: 3207791
- name: validation
num_bytes: 477494362
num_examples: 401074
- name: test
num_bytes: 477002501
num_examples: 400379
download_size: 1017850129
dataset_size: 4779518860
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
数据集信息:
特征列表:
1. 查询标识符(query_id):数据类型为字符串
2. 段落标识符(passage_id):数据类型为字符串
3. 句子哈希值(sentence_hash):数据类型为字符串
4. 查询(query):数据类型为字符串
5. 回答(answer):数据类型为字符串
6. 查询类型(query_type):数据类型为字符串
7. 查询难度等级(query_level):数据类型为字符串
8. 段落(passage):数据类型为字符串
9. 段落索引(passage_idx):数据类型为int32
10. 标题(title):数据类型为字符串
11. 段落内句子总数(num_sentences_in_passage):数据类型为int32
12. 句子(sentence):数据类型为字符串
13. 句子索引(sentence_idx):数据类型为int32
14. 句子字符起始位置(sentence_char_start):数据类型为int32
15. 句子字符结束位置(sentence_char_end):数据类型为int32
16. 相关性标记(relevant):数据类型为类别标签,类别映射为:'0':不相关(not_relevant),'1':相关(relevant)
17. 源拆分标识(source_split):数据类型为字符串
18. 原始拆分标识(original_split):数据类型为字符串
19. 句子注意力得分(sentence_attn_score):数据类型为float64
20. 归一化句子注意力得分(sentence_attn_score_normalized):数据类型为float64
21. 段落重排序得分(passage_reranker_score):数据类型为float64
数据拆分信息:
- 训练集(train):字节占用量3825021997,样本数量3207791
- 验证集(validation):字节占用量477494362,样本数量401074
- 测试集(test):字节占用量477002501,样本数量400379
整体下载大小为1017850129字节,数据集总占用大小为4779518860字节
配置项:
- 配置名称:default(默认配置),对应数据文件路径如下:
· 训练集拆分:data/train-*
· 验证集拆分:data/validation-*
· 测试集拆分:data/test-*
提供机构:
mayankkeshari



