five

deep-learning-analytics/arxiv_small_nougat

收藏
Hugging Face2023-10-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/deep-learning-analytics/arxiv_small_nougat
下载链接
链接失效反馈
官方服务:
资源简介:
arxiv_small_nougat数据集包含了108篇来自arXiv的近期论文,这些论文主要涉及大语言模型(LLM)和Transformer相关主题。数据集使用Meta的Nougat模型进行解析和处理,以确保表格和数学方程等复杂元素的完整性。数据集格式为纯文本,适用于自然语言处理、机器学习等任务。
提供机构:
deep-learning-analytics
原始信息汇总

数据集概述

数据集名称

arxiv_small_nougat

描述

该数据集包含108篇与大型语言模型(LLM)和Transformer相关的arXiv近期论文,这些论文经过Meta的Nougat模型处理和解析,保留了表格和数学公式。

许可

MIT

任务类别

  • 自然语言处理
  • 机器学习

语言

英语

大小

108篇论文

下载大小

21.9MB

数据格式

数据集包含选定论文的解析内容,特别关注格式、表格和数学表达式的保留。每篇论文以纯文本形式提供。

用途

研究人员、学者和自然语言处理从业者可以利用该数据集进行与LLM和Transformer相关的各种任务,包括:

  • 语言建模
  • 文本摘要
  • 信息检索
  • 表格和公式提取

致谢

我们感谢arXiv平台为机器学习和自然语言处理领域提供大量开放访问的研究论文。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作