introspector/papers
收藏Hugging Face2024-02-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/introspector/papers
下载链接
链接失效反馈官方服务:
资源简介:
---
license: creativeml-openrail-m
---
This contains papers and different forms
2073 git submodule add https://github.com/ppwwyyxx/SoPaper
2074 cd SoPaper/
2075 ls
2076 pip install .
2077 sopaper
2078 sopaper unimath
2079 ls
2080 mkdir data
2081 mv Unimath.pdf data/
2082 sopaper unimath --help
2083 pdftotext data/Unimath.pdf
2084 cd data/
2085 git init
2086 git add Unimath.*
2087 git commit -m 'baseline'
2088 pandoc Unimath.pdf Unimath.org
2089 pdftohtml Unimath.pdf
2090 ls -ltar
2091 pandoc Unimath.html Unimath.org
2092 pandoc Unimath.html -o Unimath.org
2093 pandoc Unimath.html -O Unimath.org
2094 pandoc --help
2095 pandoc Unimath.html --to org
2096 ls -latr
2097 pandoc Unimaths.html --to org
2098 pandoc Unimaths.html --to org >Unimath.org
2099 pandoc Unimaths.html --to md
2100 pandoc Unimaths.html --to markdown
2101 git add Unimath.org
2102 git commit -m 'base' -a
2103 git remote add https://huggingface.co/datasets/introspector/papers
2104 git remote add origin https://huggingface.co/datasets/introspector/papers
2105 git add *
2106 git commit -m 'paper step1' -a
2107 git push
2108 git pull
2109 git config pull.rebase true # rebase
2110 git pull
2111 git commit -m 'merge' -a
2112 git push
2113 cp ~/.gitignore_templates/Emacs.gitignore .gitingnore
2114 cp ~/.gitignore_templates/Emacs.gitignore .gitignore
2115 git status
2116 git add .gitignore
2117 git commit -m 'clean' -a
2118 ls
2119 mkdir -p 2016/09/27/Heidelberg/HLF2015/Unimath
2120 mv Unimath* 2016/09/27/Heidelberg/HLF2015/Unimath/
2121 git status
2122 git add 2016
2123 git commit -m 'moving' -a
2124 git push
2125 mv 2016/09/27/Heidelberg/HLF2015 016/09/27/Heidelberg/HLF2016
2126 git add 2016/
2127 git commit -m 'move' -a
2128 git push
2129 history
提供机构:
introspector
原始信息汇总
数据集概述
数据集内容
- 包含论文和不同形式的文件。
数据处理步骤
- 使用
git submodule add命令添加子模块。 - 进入子模块目录并安装相关依赖。
- 使用
sopaper工具处理论文。 - 将论文文件移动到
data目录。 - 使用
pdftotext工具将 PDF 文件转换为文本格式。 - 使用
pandoc工具将 HTML 文件转换为其他格式。 - 使用
git进行版本控制,包括添加、提交、推送和拉取操作。 - 对文件进行组织和重命名。
数据集文件结构
- 论文文件存储在
data目录中,并按年份和事件进行组织。



