five

thepurpleowl/codequeries

收藏
Hugging Face2023-06-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thepurpleowl/codequeries
下载链接
链接失效反馈
官方服务:
资源简介:
CodeQueries是一个用于评估神经网络在代码语义查询中回答能力的数据集。给定一个查询和代码,模型需要识别代码中的答案和支持事实跨度。这是针对代码的抽取式问答,适用于具有大范围(整个文件)和复杂性的问题,包括单跳和多跳推理。数据集包含从Python文件中提取的代码上下文。
提供机构:
thepurpleowl
原始信息汇总

数据集概述

数据集名称

  • 名称: CodeQueries

数据集描述

  • 目的: 评估神经网络回答代码语义查询的能力。
  • 任务: 提取式问答,涉及代码的语义理解和多跳推理。
  • 语言: 包含Python代码。

数据集结构

  • 数据字段:
    • query_name: 查询名称
    • code_file_path: 代码文件路径
    • context_blocks: 代码块及其元数据
    • answer_spans: 答案跨度及其元数据
    • supporting_fact_spans: 支持事实跨度及其元数据
    • example_type: 示例类型(正例或负例)
    • single_hop: 查询类型(单跳或非单跳)
    • subtokenized_input_sequence: 示例子令牌序列
    • label_sequence: 示例子令牌标签序列
    • relevance_label: 块的相关性标签

数据集创建

  • 源数据集: ETH Py150 Open dataset
  • 工具: CodeQL用于获取语义查询和相应的答案/支持事实跨度。

许可信息

  • 数据集许可: Apache-2.0
  • 源代码许可: 基于ETH Py150 Open dataset的许可。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作