ruanchaves/lynx

Name: ruanchaves/lynx
Creator: ruanchaves
Published: 2022-10-20 19:12:51
License: 暂无描述

Hugging Face2022-10-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ruanchaves/lynx

下载链接

链接失效反馈

官方服务：

资源简介：

Lynx是一个用于标识符分割的数据集，即将标识符中的单词分开。除了标识符分割，该数据集的黄金标签还包括缩写扩展。数据集的语言为C语言，数据实例展示了标识符的分割和扩展信息。

Lynx is a dataset for identifier splitting, the task of separating constituent words within an identifier. Besides identifier splitting, the gold labels of this dataset also include abbreviation expansion. The dataset targets the C programming language, and each data instance presents the splitting and expansion information of the relevant identifier.

提供机构：

ruanchaves

原始信息汇总

数据集概述

数据集描述

数据集总结

名称: Lynx
目的: 用于标识符分割，即在标识符中添加空格分隔单词。
额外任务: 包含缩写扩展。

语言

编程语言: C

数据集结构

数据实例

示例结构: json { "index": 3, "identifier": "abspath", "segmentation": "abs path", "expansion": "absolute path", "spans": { "text": ["abs"], "expansion": ["absolute"], "start": [0], "end": [4] } }

数据字段

index: 数值索引。
identifier: 原始标识符。
segmentation: 标识符的金标准分割，不包含缩写扩展。
expansion: 标识符的金标准分割，包含缩写扩展。
spans: 缩写的起始和结束索引，缩写文本及其对应的扩展。

数据集创建

字段一致性: 所有数据集共享基本字段，如identifier和segmentation。
处理规则: 字符间始终有空格，特殊字符如_、:、~等与字母数字字符之间也保持空格。
额外注释: 若存在命名实体识别等任务的注释，将置于spans字段中。

5,000+

优质数据集

54 个

任务类型

进入经典数据集