five

CWRCzech

收藏
arXiv2024-06-01 更新2024-06-21 收录
下载链接:
https://github.com/seznam/CWRCzech
下载链接
链接失效反馈
官方服务:
资源简介:
CWRCzech是由捷克共和国的Seznam.cz公司创建的大型点击数据集,包含1亿条捷克语的查询-文档对,用于网页相关性排序研究。数据集从Seznam.cz搜索引擎日志中收集用户行为数据,包括2760万次点击文档和1080万次停留时间。此外,还发布了一个包含近5万对查询-文档的人工标注测试集,每对至少由2名标注者标注。CWRCzech旨在通过大规模自动收集的用户行为数据,提高语言模型在相关性排序任务中的性能,挑战传统依赖人工标注数据的方法。

CWRCzech is a large-scale click dataset created by Seznam.cz, a company based in the Czech Republic. It contains 100 million Czech query-document pairs, developed for web relevance ranking research. The dataset collects user behavior data from Seznam.cz's search engine logs, including 27.6 million clicked documents and 10.8 million dwell time records. Additionally, a manually annotated test set covering nearly 50,000 query-document pairs has been released, with each pair annotated by at least two annotators. CWRCzech aims to improve the performance of language models in relevance ranking tasks by leveraging large-scale automatically collected user behavior data, challenging traditional methods that solely rely on manually annotated data.
提供机构:
Seznam.cz 布拉格,捷克共和国
创建时间:
2024-06-01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作