deep-learning-analytics/arxiv_small_nougat
收藏Hugging Face2023-10-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/deep-learning-analytics/arxiv_small_nougat
下载链接
链接失效反馈官方服务:
资源简介:
arxiv_small_nougat数据集包含了108篇来自arXiv的近期论文,这些论文主要涉及大语言模型(LLM)和Transformer相关主题。数据集使用Meta的Nougat模型进行解析和处理,以确保表格和数学方程等复杂元素的完整性。数据集格式为纯文本,适用于自然语言处理、机器学习等任务。
提供机构:
deep-learning-analytics
原始信息汇总
数据集概述
数据集名称
arxiv_small_nougat
描述
该数据集包含108篇与大型语言模型(LLM)和Transformer相关的arXiv近期论文,这些论文经过Meta的Nougat模型处理和解析,保留了表格和数学公式。
许可
MIT
任务类别
- 自然语言处理
- 机器学习
语言
英语
大小
108篇论文
下载大小
21.9MB
数据格式
数据集包含选定论文的解析内容,特别关注格式、表格和数学表达式的保留。每篇论文以纯文本形式提供。
用途
研究人员、学者和自然语言处理从业者可以利用该数据集进行与LLM和Transformer相关的各种任务,包括:
- 语言建模
- 文本摘要
- 信息检索
- 表格和公式提取
致谢
我们感谢arXiv平台为机器学习和自然语言处理领域提供大量开放访问的研究论文。



