five

ruanchaves/loyola

收藏
Hugging Face2022-10-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ruanchaves/loyola
下载链接
链接失效反馈
官方服务:
资源简介:
The Loyola University of Delaware Identifier Splitting Oracle数据集用于编程语言中的标识符分割任务,即将标识符中的单词用空格分隔。数据集包含Java、C和C++语言的标识符。每个数据实例包括索引、原始标识符、分割后的标识符、编程语言和来源。数据集的创建过程涉及标识符和分割之间的基本字段,并确保在字母数字字符和特殊字符序列之间有空格。

The Loyola University of Delaware Identifier Splitting Oracle dataset is designed for the identifier splitting task in programming languages, which refers to separating words within an identifier with spaces. The dataset includes identifiers from Java, C and C++ programming languages. Each data instance includes an index, the original identifier, the split identifier, the corresponding programming language and the data source. The dataset creation process involves basic fields that link original identifiers and their split results, and ensures that spaces are added between alphanumeric character sequences and special character sequences.
提供机构:
ruanchaves
原始信息汇总

数据集概述

数据集基本信息

  • 名称: The Loyola University of Delaware Identifier Splitting Oracle
  • 语言: 代码(具体为Java, C, C++)
  • 许可证: 未知
  • 多语言性: 单语
  • 大小: 未知
  • 来源: 原始数据
  • 任务类别: 结构预测
  • 标签: 单词分割

数据集描述

数据集总结

该数据集用于标识符分割,即在标识符中添加空格以分隔单词的任务。

语言

  • Java
  • C
  • C++

数据集结构

数据实例

json { "index": 0, "identifier": "::CreateProcess", "segmentation": ":: Create Process", "language": "cpp", "source": "mozilla-source-1.1" }

数据字段

  • index: 数值索引。
  • identifier: 原始标识符。
  • segmentation: 标识符的金标准分割。
  • language: 源代码的编程语言。
  • source: 标识符的来源。

数据集创建

  • 所有在此配置文件上的哈希标签分割和标识符分割数据集具有相同的基字段:hashtagsegmentationidentifiersegmentation
  • 仅在hashtagsegmentationidentifiersegmentation 之间的差异是空格字符。
  • 在任何字母数字字符和任何特殊字符序列(如_ , :, ~)之间总是有空格。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作