mayankkeshari/hotpotqa-sentence-retrieval-with-scores

Name: mayankkeshari/hotpotqa-sentence-retrieval-with-scores
Creator: mayankkeshari
Published: 2025-12-08 14:42:14
License: 暂无描述

Hugging Face2025-12-08 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/mayankkeshari/hotpotqa-sentence-retrieval-with-scores

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: query_id dtype: string - name: passage_id dtype: string - name: sentence_hash dtype: string - name: query dtype: string - name: answer dtype: string - name: query_type dtype: string - name: query_level dtype: string - name: passage dtype: string - name: passage_idx dtype: int32 - name: title dtype: string - name: num_sentences_in_passage dtype: int32 - name: sentence dtype: string - name: sentence_idx dtype: int32 - name: sentence_char_start dtype: int32 - name: sentence_char_end dtype: int32 - name: relevant dtype: class_label: names: '0': not_relevant '1': relevant - name: source_split dtype: string - name: original_split dtype: string - name: sentence_attn_score dtype: float64 - name: sentence_attn_score_normalized dtype: float64 - name: passage_reranker_score dtype: float64 splits: - name: train num_bytes: 3825021997 num_examples: 3207791 - name: validation num_bytes: 477494362 num_examples: 401074 - name: test num_bytes: 477002501 num_examples: 400379 download_size: 1017850129 dataset_size: 4779518860 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* ---

数据集信息：特征列表： 1. 查询标识符（query_id）：数据类型为字符串 2. 段落标识符（passage_id）：数据类型为字符串 3. 句子哈希值（sentence_hash）：数据类型为字符串 4. 查询（query）：数据类型为字符串 5. 回答（answer）：数据类型为字符串 6. 查询类型（query_type）：数据类型为字符串 7. 查询难度等级（query_level）：数据类型为字符串 8. 段落（passage）：数据类型为字符串 9. 段落索引（passage_idx）：数据类型为int32 10. 标题（title）：数据类型为字符串 11. 段落内句子总数（num_sentences_in_passage）：数据类型为int32 12. 句子（sentence）：数据类型为字符串 13. 句子索引（sentence_idx）：数据类型为int32 14. 句子字符起始位置（sentence_char_start）：数据类型为int32 15. 句子字符结束位置（sentence_char_end）：数据类型为int32 16. 相关性标记（relevant）：数据类型为类别标签，类别映射为：'0'：不相关（not_relevant），'1'：相关（relevant） 17. 源拆分标识（source_split）：数据类型为字符串 18. 原始拆分标识（original_split）：数据类型为字符串 19. 句子注意力得分（sentence_attn_score）：数据类型为float64 20. 归一化句子注意力得分（sentence_attn_score_normalized）：数据类型为float64 21. 段落重排序得分（passage_reranker_score）：数据类型为float64 数据拆分信息： - 训练集（train）：字节占用量3825021997，样本数量3207791 - 验证集（validation）：字节占用量477494362，样本数量401074 - 测试集（test）：字节占用量477002501，样本数量400379 整体下载大小为1017850129字节，数据集总占用大小为4779518860字节配置项： - 配置名称：default（默认配置），对应数据文件路径如下： · 训练集拆分：data/train-* · 验证集拆分：data/validation-* · 测试集拆分：data/test-*

提供机构：

mayankkeshari

5,000+

优质数据集

54 个

任务类型

进入经典数据集