thepurpleowl/codequeries
收藏Hugging Face2023-06-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thepurpleowl/codequeries
下载链接
链接失效反馈官方服务:
资源简介:
CodeQueries是一个用于评估神经网络在代码语义查询中回答能力的数据集。给定一个查询和代码,模型需要识别代码中的答案和支持事实跨度。这是针对代码的抽取式问答,适用于具有大范围(整个文件)和复杂性的问题,包括单跳和多跳推理。数据集包含从Python文件中提取的代码上下文。
提供机构:
thepurpleowl
原始信息汇总
数据集概述
数据集名称
- 名称: CodeQueries
数据集描述
- 目的: 评估神经网络回答代码语义查询的能力。
- 任务: 提取式问答,涉及代码的语义理解和多跳推理。
- 语言: 包含Python代码。
数据集结构
- 数据字段:
query_name: 查询名称code_file_path: 代码文件路径context_blocks: 代码块及其元数据answer_spans: 答案跨度及其元数据supporting_fact_spans: 支持事实跨度及其元数据example_type: 示例类型(正例或负例)single_hop: 查询类型(单跳或非单跳)subtokenized_input_sequence: 示例子令牌序列label_sequence: 示例子令牌标签序列relevance_label: 块的相关性标签
数据集创建
- 源数据集: ETH Py150 Open dataset
- 工具: CodeQL用于获取语义查询和相应的答案/支持事实跨度。
许可信息
- 数据集许可: Apache-2.0
- 源代码许可: 基于ETH Py150 Open dataset的许可。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



