oeg/software_benchmark_v2
收藏Hugging Face2023-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/oeg/software_benchmark_v2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多领域软件提及语料库,整合了SoMESCi和Softcite两个项目的语料,以及从Papers with Code网站下载的机器学习领域的出版物。在构建过程中,移除了与实体关系无关的注释,如版本、URL等,仅保留了Application_Mention标签。此外,还对两个语料库的标签进行了映射,并对某些注释做出了决策,例如将Microsoft Excel中的Excel标注为软件提及。
提供机构:
oeg
原始信息汇总
数据集概述
许可证
- CC BY 4.0
任务类别
- 文本分类
语言
- 西班牙语
数据集名称
- Software Benchmark Multidomain
数据来源
- SoMESCi:使用了上传至Github的语料库,特别是由句子创建的语料库。
- Softcite:该项目发布了另一个用于软件提及的语料库,也可在Github上获取。使用了生物和经济领域的标注。
- Papers with Code:从Papers with Code网站下载了出版物列表。构建语料库时,选择了与出版物相关的软件提及的文本。
数据处理
- 移除了其他实体的标注,如版本、URL以及与文本实体关系相关的标注。仅使用标签Application_Mention。
- 为了整合两个语料库,对标签进行了映射。例如,对于Microsoft Excel,决定将Excel标注为软件提及,而不是整个文本。
参考文献
- Schindler, D., Bensmann, F., Dietze, S., & Krüger, F. (2021, October). Somesci-A 5 star open data gold standard knowledge graph of software mentions in scientific articles. In Proceedings of the 30th ACM International Conference on Information & Knowledge Management (pp. 4574-4583).
- Du, C., Cohoon, J., Lopez, P., & Howison, J. (2021). Softcite dataset: A dataset of software mentions in biomedical and economic research publications. Journal of the Association for Information Science and Technology, 72(7), 870-884.



