five

introspector/papers

收藏
Hugging Face2024-02-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/introspector/papers
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: creativeml-openrail-m --- This contains papers and different forms 2073 git submodule add https://github.com/ppwwyyxx/SoPaper 2074 cd SoPaper/ 2075 ls 2076 pip install . 2077 sopaper 2078 sopaper unimath 2079 ls 2080 mkdir data 2081 mv Unimath.pdf data/ 2082 sopaper unimath --help 2083 pdftotext data/Unimath.pdf 2084 cd data/ 2085 git init 2086 git add Unimath.* 2087 git commit -m 'baseline' 2088 pandoc Unimath.pdf Unimath.org 2089 pdftohtml Unimath.pdf 2090 ls -ltar 2091 pandoc Unimath.html Unimath.org 2092 pandoc Unimath.html -o Unimath.org 2093 pandoc Unimath.html -O Unimath.org 2094 pandoc --help 2095 pandoc Unimath.html --to org 2096 ls -latr 2097 pandoc Unimaths.html --to org 2098 pandoc Unimaths.html --to org >Unimath.org 2099 pandoc Unimaths.html --to md 2100 pandoc Unimaths.html --to markdown 2101 git add Unimath.org 2102 git commit -m 'base' -a 2103 git remote add https://huggingface.co/datasets/introspector/papers 2104 git remote add origin https://huggingface.co/datasets/introspector/papers 2105 git add * 2106 git commit -m 'paper step1' -a 2107 git push 2108 git pull 2109 git config pull.rebase true # rebase 2110 git pull 2111 git commit -m 'merge' -a 2112 git push 2113 cp ~/.gitignore_templates/Emacs.gitignore .gitingnore 2114 cp ~/.gitignore_templates/Emacs.gitignore .gitignore 2115 git status 2116 git add .gitignore 2117 git commit -m 'clean' -a 2118 ls 2119 mkdir -p 2016/09/27/Heidelberg/HLF2015/Unimath 2120 mv Unimath* 2016/09/27/Heidelberg/HLF2015/Unimath/ 2121 git status 2122 git add 2016 2123 git commit -m 'moving' -a 2124 git push 2125 mv 2016/09/27/Heidelberg/HLF2015 016/09/27/Heidelberg/HLF2016 2126 git add 2016/ 2127 git commit -m 'move' -a 2128 git push 2129 history
提供机构:
introspector
原始信息汇总

数据集概述

数据集内容

  • 包含论文和不同形式的文件。

数据处理步骤

  1. 使用 git submodule add 命令添加子模块。
  2. 进入子模块目录并安装相关依赖。
  3. 使用 sopaper 工具处理论文。
  4. 将论文文件移动到 data 目录。
  5. 使用 pdftotext 工具将 PDF 文件转换为文本格式。
  6. 使用 pandoc 工具将 HTML 文件转换为其他格式。
  7. 使用 git 进行版本控制,包括添加、提交、推送和拉取操作。
  8. 对文件进行组织和重命名。

数据集文件结构

  • 论文文件存储在 data 目录中,并按年份和事件进行组织。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作