five

mlsa-iai-msu-lab/ru_sci_bench

收藏
Hugging Face2023-12-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mlsa-iai-msu-lab/ru_sci_bench
下载链接
链接失效反馈
官方服务:
资源简介:
ruSciBench数据集包含英文和俄语的研究论文标题和摘要,用于ruSciBench基准测试。数据集特性包括论文ID、标题和摘要。数据集分为英文和俄语两个部分,分别包含182,436和194,071个样本。总下载大小为246,316,956字节,数据集总大小为483,380,940字节。数据集支持俄语和英语,名称为ruSciBench,属于100K到1M样本量级。

ruSciBench数据集包含英文和俄语的研究论文标题和摘要,用于ruSciBench基准测试。数据集特性包括论文ID、标题和摘要。数据集分为英文和俄语两个部分,分别包含182,436和194,071个样本。总下载大小为246,316,956字节,数据集总大小为483,380,940字节。数据集支持俄语和英语,名称为ruSciBench,属于100K到1M样本量级。
提供机构:
mlsa-iai-msu-lab
原始信息汇总

ruSciBench 文本数据集

数据集概述

ruSciBench 数据集包含英语和俄语的研究论文的标题和摘要。

数据集信息

  • 特征:
    • paper_id: 数据类型为 int64
    • title: 数据类型为 string
    • abstract: 数据类型为 string
  • 分割:
    • en: 字节数为 170801402,样本数为 182436
    • ru: 字节数为 312579538,样本数为 194071
  • 下载大小: 246316956 字节
  • 数据集大小: 483380940 字节
  • 配置:
    • default 配置包含以下数据文件:
      • en 分割对应路径 data/en-*
      • ru 分割对应路径 data/ru-*
  • 语言: 俄语 (ru) 和英语 (en)
  • 数据集名称: ruSciBench
  • 数据集大小类别: 100K < n < 1M

作者

该基准由莫斯科国立大学人工智能研究所的 MLSA 实验室开发。

致谢

该项目是莫斯科国立大学 SES MSU 项目 #23-Ш05-21 "开发处理大规模文本科学信息的机器学习数学方法" 的一部分。我们感谢 eLibrary 提供的数据集。

联系人

  • Nikolai Gerasimenko (nikgerasimenko@gmail.com)
  • Alexey Vatolin (vatolinalex@gmail.com)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作