JetBrains-Research/lca-module-summarization

Name: JetBrains-Research/lca-module-summarization
Creator: JetBrains-Research
Published: 2024-06-19 08:21:49
License: 暂无描述

Hugging Face2024-06-19 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/JetBrains-Research/lca-module-summarization

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于模块摘要任务的基准数据集，属于Long Code Arena基准测试的一部分。当前版本包含216个手动整理的文本文件，这些文件描述了不同开源Python项目的文档。模型需要根据相关代码上下文和文档的意图生成相应的描述。所有仓库均发布在宽松许可证（MIT、Apache-2.0、BSD-3-Clause和BSD-2-Clause）下。数据点可以根据请求移除。

提供机构：

JetBrains-Research

原始信息汇总

数据集概述

数据集名称

Long Code Arena (Module summarization)

数据集特征

repo: 字符串类型，仓库名称
docfile_name: 字符串类型，目标文档文件名
doc_type: 字符串类型，文档类型
intent: 字符串类型，文档预期内容的单句描述
license: 字符串类型，目标仓库的许可证
path_to_docfile: 字符串类型，源仓库中文档文件的路径
relevant_code_files: 字符串序列类型，提及在目标文档中的相关代码文件路径
relevant_code_dir: 字符串类型，提及在目标文档中的相关代码目录路径
target_text: 字符串类型，目标文档文件的文本内容
relevant_code_context: 字符串类型，从相关代码文件和目录中收集的相关代码上下文

数据集分割

test: 216个样本，数据大小为227163668字节

数据集大小

下载大小: 30375843字节
数据集大小: 227163668字节

配置

config_name: default
data_files:
- split: test
- path: data/test-*

许可证

apache-2.0

任务类别

text-generation
summarization

语言

数据点结构

repo: 仓库名称
target_text: 目标文档文件的文本内容
docfile_name: 目标文档文件名
intent: 文档预期内容的单句描述
license: 目标仓库的许可证
relevant_code_files: 提及在目标文档中的相关代码文件路径
relevant_code_dir: 提及在目标文档中的相关代码目录路径
path_to_docfile: 源仓库中文档文件的路径
relevant_code_context: 相关代码上下文

评估指标

基于LLM的新评估指标，用于比较预测文档和真实文档，通过LLM评估哪种文档更好地解释和适合代码。

5,000+

优质数据集

54 个

任务类型

进入经典数据集