adsabs/FOCAL
收藏Hugging Face2023-10-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/adsabs/FOCAL
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Function Of Citation in Astrophysics Literature (FOCAL),主要用于解释天体物理学文献中引用的功能。数据集以JSON Lines格式存储,每个条目包含唯一标识符、段落文本、引用文本、引用起始结束位置、功能文本、功能标签以及功能文本的起始结束位置。数据集分为训练集、验证集和测试集,分别包含2421、606和821个样本。数据集还提供了无标签的验证和测试样本,用于共享任务。
The dataset, titled Function Of Citation in Astrophysics Literature (FOCAL), is primarily designed to elucidate the functional roles of citations within astrophysical literature. Stored in JSON Lines format, each entry within the dataset comprises a unique identifier, paragraph text, citation text, the start and end positions of the citation, function text, function label, as well as the start and end positions of the function text. The dataset is split into training, validation, and test sets, which hold 2421, 606, and 821 samples respectively. Furthermore, the dataset offers unlabeled validation and test samples for shared tasks.
提供机构:
adsabs
原始信息汇总
数据集概述
基本信息
- 标注创建者: 专家生成
- 许可证: CC BY 4.0
- 任务类别: 词性标注
- 语言: 英语
- 多语言性: 单语
- 大小类别: 1K<n<10K
- 标签: 天文学
数据集特征
- Identifier: 字符串类型
- Paragraph: 字符串类型
- Citation Text: 字符串序列
- Functions Text: 字符串序列
- Functions Label: 字符串序列
- Citation Start End: 整数序列序列
- Functions Start End: 整数序列序列
数据集划分
- 训练集: 2421个样本,7096500字节
- 验证集: 606个样本,1761751字节
- 测试集: 821个样本,2512022字节
数据集大小
- 下载大小: 5649484字节
- 数据集大小: 11370273字节
文件列表
- FOCAL-TRAINING.jsonl: 2421个训练样本
- FOCAL-VALIDATION.jsonl: 606个验证样本
- FOCAL-TESTING.jsonl: 821个测试样本
- FOCAL-VALIDATION-NO-LABELS.jsonl: 606个无标签验证样本
- FOCAL-TESTING-NO-LABELS.jsonl: 821个无标签测试样本
- scoring_scripts/score_focal_seqeval.py: 评分脚本
- scoring_scripts/score_focal_labels_only.py: 评分脚本
- data/*.parquet: 用于通过Huggingface API加载的数据文件
- README.MD: 本文件
维护者和数据标注者
- 维护者: Felix Grezes (ORCID: 0000-0001-8714-7774)
- 数据标注者: Tom Allen (ORCID: 0000-0002-5532-4809)
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



