five

adsabs/FOCAL

收藏
Hugging Face2023-10-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/adsabs/FOCAL
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Function Of Citation in Astrophysics Literature (FOCAL),主要用于解释天体物理学文献中引用的功能。数据集以JSON Lines格式存储,每个条目包含唯一标识符、段落文本、引用文本、引用起始结束位置、功能文本、功能标签以及功能文本的起始结束位置。数据集分为训练集、验证集和测试集,分别包含2421、606和821个样本。数据集还提供了无标签的验证和测试样本,用于共享任务。

The dataset, titled Function Of Citation in Astrophysics Literature (FOCAL), is primarily designed to elucidate the functional roles of citations within astrophysical literature. Stored in JSON Lines format, each entry within the dataset comprises a unique identifier, paragraph text, citation text, the start and end positions of the citation, function text, function label, as well as the start and end positions of the function text. The dataset is split into training, validation, and test sets, which hold 2421, 606, and 821 samples respectively. Furthermore, the dataset offers unlabeled validation and test samples for shared tasks.
提供机构:
adsabs
原始信息汇总

数据集概述

基本信息

  • 标注创建者: 专家生成
  • 许可证: CC BY 4.0
  • 任务类别: 词性标注
  • 语言: 英语
  • 多语言性: 单语
  • 大小类别: 1K<n<10K
  • 标签: 天文学

数据集特征

  • Identifier: 字符串类型
  • Paragraph: 字符串类型
  • Citation Text: 字符串序列
  • Functions Text: 字符串序列
  • Functions Label: 字符串序列
  • Citation Start End: 整数序列序列
  • Functions Start End: 整数序列序列

数据集划分

  • 训练集: 2421个样本,7096500字节
  • 验证集: 606个样本,1761751字节
  • 测试集: 821个样本,2512022字节

数据集大小

  • 下载大小: 5649484字节
  • 数据集大小: 11370273字节

文件列表

  • FOCAL-TRAINING.jsonl: 2421个训练样本
  • FOCAL-VALIDATION.jsonl: 606个验证样本
  • FOCAL-TESTING.jsonl: 821个测试样本
  • FOCAL-VALIDATION-NO-LABELS.jsonl: 606个无标签验证样本
  • FOCAL-TESTING-NO-LABELS.jsonl: 821个无标签测试样本
  • scoring_scripts/score_focal_seqeval.py: 评分脚本
  • scoring_scripts/score_focal_labels_only.py: 评分脚本
  • data/*.parquet: 用于通过Huggingface API加载的数据文件
  • README.MD: 本文件

维护者和数据标注者

  • 维护者: Felix Grezes (ORCID: 0000-0001-8714-7774)
  • 数据标注者: Tom Allen (ORCID: 0000-0002-5532-4809)
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作