mlsa-iai-msu-lab/ru_sci_bench
收藏Hugging Face2023-12-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mlsa-iai-msu-lab/ru_sci_bench
下载链接
链接失效反馈官方服务:
资源简介:
ruSciBench数据集包含英文和俄语的研究论文标题和摘要,用于ruSciBench基准测试。数据集特性包括论文ID、标题和摘要。数据集分为英文和俄语两个部分,分别包含182,436和194,071个样本。总下载大小为246,316,956字节,数据集总大小为483,380,940字节。数据集支持俄语和英语,名称为ruSciBench,属于100K到1M样本量级。
ruSciBench数据集包含英文和俄语的研究论文标题和摘要,用于ruSciBench基准测试。数据集特性包括论文ID、标题和摘要。数据集分为英文和俄语两个部分,分别包含182,436和194,071个样本。总下载大小为246,316,956字节,数据集总大小为483,380,940字节。数据集支持俄语和英语,名称为ruSciBench,属于100K到1M样本量级。
提供机构:
mlsa-iai-msu-lab
原始信息汇总
ruSciBench 文本数据集
数据集概述
ruSciBench 数据集包含英语和俄语的研究论文的标题和摘要。
数据集信息
- 特征:
paper_id: 数据类型为int64title: 数据类型为stringabstract: 数据类型为string
- 分割:
en: 字节数为 170801402,样本数为 182436ru: 字节数为 312579538,样本数为 194071
- 下载大小: 246316956 字节
- 数据集大小: 483380940 字节
- 配置:
default配置包含以下数据文件:en分割对应路径data/en-*ru分割对应路径data/ru-*
- 语言: 俄语 (
ru) 和英语 (en) - 数据集名称: ruSciBench
- 数据集大小类别: 100K < n < 1M
作者
该基准由莫斯科国立大学人工智能研究所的 MLSA 实验室开发。
致谢
该项目是莫斯科国立大学 SES MSU 项目 #23-Ш05-21 "开发处理大规模文本科学信息的机器学习数学方法" 的一部分。我们感谢 eLibrary 提供的数据集。
联系人
- Nikolai Gerasimenko (nikgerasimenko@gmail.com)
- Alexey Vatolin (vatolinalex@gmail.com)



