irds/codesearchnet_train
收藏Hugging Face2023-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/irds/codesearchnet_train
下载链接
链接失效反馈官方服务:
资源简介:
`codesearchnet/train`数据集由ir-datasets包提供,主要用于文本检索任务。该数据集包含查询(queries)和查询相关评估(qrels),其中查询数量为1,880,853条,查询相关评估数量也为1,880,853条。文档(docs)部分需要使用`irds/codesearchnet`数据集。
提供机构:
irds
原始信息汇总
数据集概述
数据集名称
codesearchnet/train
数据来源
- 源数据集:
irds/codesearchnet
任务类别
- 文本检索
数据内容
queries(查询): 数量为1,880,853qrels(相关性评估): 数量为1,880,853docs(文档): 使用irds/codesearchnet数据集
使用示例
python from datasets import load_dataset
queries = load_dataset(irds/codesearchnet_train, queries) for record in queries: record # {query_id: ..., text: ...}
qrels = load_dataset(irds/codesearchnet_train, qrels) for record in qrels: record # {query_id: ..., doc_id: ..., relevance: ..., iteration: ...}
引用信息
@article{Husain2019CodeSearchNet, title={CodeSearchNet Challenge: Evaluating the State of Semantic Code Search}, author={Hamel Husain and Ho-Hsiang Wu and Tiferet Gazit and Miltiadis Allamanis and Marc Brockschmidt}, journal={ArXiv}, year={2019} }



