five

mayankkeshari/hotpotqa-sentence-retrieval-with-scores

收藏
Hugging Face2025-12-08 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/mayankkeshari/hotpotqa-sentence-retrieval-with-scores
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: query_id dtype: string - name: passage_id dtype: string - name: sentence_hash dtype: string - name: query dtype: string - name: answer dtype: string - name: query_type dtype: string - name: query_level dtype: string - name: passage dtype: string - name: passage_idx dtype: int32 - name: title dtype: string - name: num_sentences_in_passage dtype: int32 - name: sentence dtype: string - name: sentence_idx dtype: int32 - name: sentence_char_start dtype: int32 - name: sentence_char_end dtype: int32 - name: relevant dtype: class_label: names: '0': not_relevant '1': relevant - name: source_split dtype: string - name: original_split dtype: string - name: sentence_attn_score dtype: float64 - name: sentence_attn_score_normalized dtype: float64 - name: passage_reranker_score dtype: float64 splits: - name: train num_bytes: 3825021997 num_examples: 3207791 - name: validation num_bytes: 477494362 num_examples: 401074 - name: test num_bytes: 477002501 num_examples: 400379 download_size: 1017850129 dataset_size: 4779518860 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* ---

数据集信息: 特征列表: 1. 查询标识符(query_id):数据类型为字符串 2. 段落标识符(passage_id):数据类型为字符串 3. 句子哈希值(sentence_hash):数据类型为字符串 4. 查询(query):数据类型为字符串 5. 回答(answer):数据类型为字符串 6. 查询类型(query_type):数据类型为字符串 7. 查询难度等级(query_level):数据类型为字符串 8. 段落(passage):数据类型为字符串 9. 段落索引(passage_idx):数据类型为int32 10. 标题(title):数据类型为字符串 11. 段落内句子总数(num_sentences_in_passage):数据类型为int32 12. 句子(sentence):数据类型为字符串 13. 句子索引(sentence_idx):数据类型为int32 14. 句子字符起始位置(sentence_char_start):数据类型为int32 15. 句子字符结束位置(sentence_char_end):数据类型为int32 16. 相关性标记(relevant):数据类型为类别标签,类别映射为:'0':不相关(not_relevant),'1':相关(relevant) 17. 源拆分标识(source_split):数据类型为字符串 18. 原始拆分标识(original_split):数据类型为字符串 19. 句子注意力得分(sentence_attn_score):数据类型为float64 20. 归一化句子注意力得分(sentence_attn_score_normalized):数据类型为float64 21. 段落重排序得分(passage_reranker_score):数据类型为float64 数据拆分信息: - 训练集(train):字节占用量3825021997,样本数量3207791 - 验证集(validation):字节占用量477494362,样本数量401074 - 测试集(test):字节占用量477002501,样本数量400379 整体下载大小为1017850129字节,数据集总占用大小为4779518860字节 配置项: - 配置名称:default(默认配置),对应数据文件路径如下: · 训练集拆分:data/train-* · 验证集拆分:data/validation-* · 测试集拆分:data/test-*
提供机构:
mayankkeshari
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作