five

sebastian-hofstaetter/tripclick-training

收藏
Hugging Face2022-07-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sebastian-hofstaetter/tripclick-training
下载链接
链接失效反馈
官方服务:
资源简介:
TripClick Baselines with Improved Training Data数据集是一个用于健康信息检索任务的数据集。该数据集通过改进训练数据中的负采样策略,提升了BERT<sub>CAT</sub>, BERT<sub>DOT</sub>, ColBERT, 和 TK等模型在TripClick数据集上的重排序和密集检索性能。数据集的语言为英语(en-US),许可证为Apache-2.0,属于单语言数据集。数据集的创建者包括其他人员和点击数据,任务类别为文本检索,具体任务为文档检索。

The TripClick Baselines with Improved Training Data dataset is a resource for health information retrieval tasks. By optimizing the negative sampling strategy in the training data, this dataset improves the re-ranking and dense retrieval performance of models including BERT<sub>CAT</sub>, BERT<sub>DOT</sub>, ColBERT, and TK on the original TripClick dataset. The dataset was constructed using click data and contributions from other personnel. Its task category falls under text retrieval, with the specific task being document retrieval. The dataset is available in English (en-US), licensed under Apache-2.0, and is a monolingual dataset.
提供机构:
sebastian-hofstaetter
原始信息汇总

数据集概述

基本信息

  • 名称: tripclick-training
  • 语言: 英语(en-US)
  • 许可证: Apache-2.0
  • 多语言性: 单语
  • 大小: 未知
  • 来源数据集: tripclick

任务相关

  • 任务类别: 文本检索
  • 具体任务: 文档检索

数据集内容

  • 发布文件: improved_tripclick_train_triple-ids.tsv
  • 文件格式: query_id pos_passage_id neg_passage_id(使用制表符分隔)

使用说明

  • 数据集不包含文本内容,仅提供TripClick数据集的ID。完整文本内容需从TripClick Github页面获取。
  • 更多使用信息请参考: https://github.com/sebastian-hofstaetter/tripclick
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作