sebastian-hofstaetter/tripclick-training
收藏Hugging Face2022-07-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sebastian-hofstaetter/tripclick-training
下载链接
链接失效反馈官方服务:
资源简介:
TripClick Baselines with Improved Training Data数据集是一个用于健康信息检索任务的数据集。该数据集通过改进训练数据中的负采样策略,提升了BERT<sub>CAT</sub>, BERT<sub>DOT</sub>, ColBERT, 和 TK等模型在TripClick数据集上的重排序和密集检索性能。数据集的语言为英语(en-US),许可证为Apache-2.0,属于单语言数据集。数据集的创建者包括其他人员和点击数据,任务类别为文本检索,具体任务为文档检索。
The TripClick Baselines with Improved Training Data dataset is a resource for health information retrieval tasks. By optimizing the negative sampling strategy in the training data, this dataset improves the re-ranking and dense retrieval performance of models including BERT<sub>CAT</sub>, BERT<sub>DOT</sub>, ColBERT, and TK on the original TripClick dataset. The dataset was constructed using click data and contributions from other personnel. Its task category falls under text retrieval, with the specific task being document retrieval. The dataset is available in English (en-US), licensed under Apache-2.0, and is a monolingual dataset.
提供机构:
sebastian-hofstaetter
原始信息汇总
数据集概述
基本信息
- 名称: tripclick-training
- 语言: 英语(en-US)
- 许可证: Apache-2.0
- 多语言性: 单语
- 大小: 未知
- 来源数据集: tripclick
任务相关
- 任务类别: 文本检索
- 具体任务: 文档检索
数据集内容
- 发布文件: improved_tripclick_train_triple-ids.tsv
- 文件格式:
query_id pos_passage_id neg_passage_id(使用制表符分隔)
使用说明
- 数据集不包含文本内容,仅提供TripClick数据集的ID。完整文本内容需从TripClick Github页面获取。
- 更多使用信息请参考: https://github.com/sebastian-hofstaetter/tripclick
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



