five

arnosimons/astro-hep-planck-corpus

收藏
Hugging Face2024-11-27 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/arnosimons/astro-hep-planck-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Astro-HEP-Planck Corpus数据集包含来自arXiv论文的1,494个段落,这些段落与天体物理学或高能物理学相关,并且对2,932次出现的Planck进行了词义标注。数据集的主要列包括文本、长度、arXiv标识符、文本ID、出版日期、是否与天体物理学或高能物理学相关、Planck的标注数量及其词义标签。数据集的构建是通过从Astro-HEP Corpus中随机抽取包含Planck的段落,并使用不区分大小写的正则表达式来识别Planck的不同变体。数据集的开发由Arno Simons完成,并由欧盟资助。

The Astro-HEP-Planck Corpus contains 1,494 paragraphs from arXiv papers relating to astrophysics or high energy physics together with word-sense labels for 2,932 occurrences of Planck. The main columns of the dataset include text, length, arXiv identifier, text ID, publication date, whether the paper relates to astrophysics or high energy physics, the number of labeled occurrences of Planck, and the list of word-sense labels for Planck. The dataset was constructed by randomly sampling paragraphs containing Planck from the Astro-HEP Corpus and using a case-insensitive regular expression to identify variations of Planck. The dataset was developed by Arno Simons and funded by the European Union.
提供机构:
arnosimons
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作