five

NAMAA-Space/Ara-TyDi-Triplet

收藏
Hugging Face2024-11-21 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/NAMAA-Space/Ara-TyDi-Triplet
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Mr. TyDi数据集的阿拉伯语子集的转换版本,专门用于训练检索和重新排序模型。数据集采用三元组格式,每个查询与一个正面段落和多个负面段落中的一个配对。数据集包含362,000行数据,适用于成对排序任务和对比学习方法。数据集结构包括训练分割,字段包括查询、正面段落和负面段落。数据集专注于阿拉伯语,并提供了加载和使用数据集的示例代码。

This dataset is a transformed version of the Arabic subset of the Mr. TyDi dataset, designed specifically for training retrieval and re-ranking models. Each query is paired with a positive passage and one of the multiple negative passages in a triplet format: (query, positive, negative). This restructuring resulted in a total of 362,000 rows, making it ideal for pairwise ranking tasks and contrastive learning approaches. The dataset maintains the original purpose of Mr. TyDi for monolingual retrieval, while offering a simplified and scalable format for learning-to-rank tasks. The dataset focuses exclusively on the Arabic subset of Mr. TyDi.
提供机构:
NAMAA-Space
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作