five

oeg/software_benchmark_v2

收藏
Hugging Face2023-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/oeg/software_benchmark_v2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多领域软件提及语料库,整合了SoMESCi和Softcite两个项目的语料,以及从Papers with Code网站下载的机器学习领域的出版物。在构建过程中,移除了与实体关系无关的注释,如版本、URL等,仅保留了Application_Mention标签。此外,还对两个语料库的标签进行了映射,并对某些注释做出了决策,例如将Microsoft Excel中的Excel标注为软件提及。
提供机构:
oeg
原始信息汇总

数据集概述

许可证

  • CC BY 4.0

任务类别

  • 文本分类

语言

  • 西班牙语

数据集名称

  • Software Benchmark Multidomain

数据来源

  • SoMESCi:使用了上传至Github的语料库,特别是由句子创建的语料库。
  • Softcite:该项目发布了另一个用于软件提及的语料库,也可在Github上获取。使用了生物和经济领域的标注。
  • Papers with Code:从Papers with Code网站下载了出版物列表。构建语料库时,选择了与出版物相关的软件提及的文本。

数据处理

  • 移除了其他实体的标注,如版本、URL以及与文本实体关系相关的标注。仅使用标签Application_Mention。
  • 为了整合两个语料库,对标签进行了映射。例如,对于Microsoft Excel,决定将Excel标注为软件提及,而不是整个文本。

参考文献

  1. Schindler, D., Bensmann, F., Dietze, S., & Krüger, F. (2021, October). Somesci-A 5 star open data gold standard knowledge graph of software mentions in scientific articles. In Proceedings of the 30th ACM International Conference on Information & Knowledge Management (pp. 4574-4583).
  2. Du, C., Cohoon, J., Lopez, P., & Howison, J. (2021). Softcite dataset: A dataset of software mentions in biomedical and economic research publications. Journal of the Association for Information Science and Technology, 72(7), 870-884.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作