ruanchaves/loyola
收藏Hugging Face2022-10-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ruanchaves/loyola
下载链接
链接失效反馈官方服务:
资源简介:
The Loyola University of Delaware Identifier Splitting Oracle数据集用于编程语言中的标识符分割任务,即将标识符中的单词用空格分隔。数据集包含Java、C和C++语言的标识符。每个数据实例包括索引、原始标识符、分割后的标识符、编程语言和来源。数据集的创建过程涉及标识符和分割之间的基本字段,并确保在字母数字字符和特殊字符序列之间有空格。
The Loyola University of Delaware Identifier Splitting Oracle dataset is designed for the identifier splitting task in programming languages, which refers to separating words within an identifier with spaces. The dataset includes identifiers from Java, C and C++ programming languages. Each data instance includes an index, the original identifier, the split identifier, the corresponding programming language and the data source. The dataset creation process involves basic fields that link original identifiers and their split results, and ensures that spaces are added between alphanumeric character sequences and special character sequences.
提供机构:
ruanchaves
原始信息汇总
数据集概述
数据集基本信息
- 名称: The Loyola University of Delaware Identifier Splitting Oracle
- 语言: 代码(具体为Java, C, C++)
- 许可证: 未知
- 多语言性: 单语
- 大小: 未知
- 来源: 原始数据
- 任务类别: 结构预测
- 标签: 单词分割
数据集描述
数据集总结
该数据集用于标识符分割,即在标识符中添加空格以分隔单词的任务。
语言
- Java
- C
- C++
数据集结构
数据实例
json { "index": 0, "identifier": "::CreateProcess", "segmentation": ":: Create Process", "language": "cpp", "source": "mozilla-source-1.1" }
数据字段
index: 数值索引。identifier: 原始标识符。segmentation: 标识符的金标准分割。language: 源代码的编程语言。source: 标识符的来源。
数据集创建
- 所有在此配置文件上的哈希标签分割和标识符分割数据集具有相同的基字段:
hashtag和segmentation或identifier和segmentation。 - 仅在
hashtag和segmentation或identifier和segmentation之间的差异是空格字符。 - 在任何字母数字字符和任何特殊字符序列(如
_,:,~)之间总是有空格。



