five

dp-testcorpus

收藏
DataONE2018-01-29 更新2024-06-25 收录
下载链接:
https://search.dataone.org/view/sha256:b2b27d5ae0acdca41aae0ea439d639cca62399712e4f30c3a91947b6540a8250
下载链接
链接失效反馈
官方服务:
资源简介:
test corpus for dp work presented as 52 test bags + rawcorpus/ (unbagged files) files came from: Waterloo Image Repository: links.uwaterloo.ca/Repository.html OpenPreserve Foundation (OPF): github.com/openpreserve/format-corpus Canterbury Corpus: corpus.canterbury.ac.nz Calgary Corpus Total # of files: 1340 Process: files extracted, directories removed made a bunch of bag directories: for ((n=1;n<100;n++));do mkdir bag$n; done used shuf to randomly select files for bag directories: for ((n=1;n<100;n++)); do shuf -zen$n ./* | xargs -0 mv -t ../bag$n/; done turned the bag directories into actual bags: do bagit.py --md5 --source-organization UTL --internal-sender-description 'random bag generated for testing' --co$ note: Bags increase in size only in that the number of files in each bag increases by 1

本数据集为面向数据保护(Data Protection, DP)工作的测试语料库,包含52个测试包(bag)与rawcorpus/目录下的未打包文件。语料来源如下: 1. 滑铁卢图像库(Waterloo Image Repository):links.uwaterloo.ca/Repository.html 2. 开放保存基金会(OpenPreserve Foundation, OPF):github.com/openpreserve/format-corpus 3. 坎特伯雷语料库(Canterbury Corpus):corpus.canterbury.ac.nz 4. 卡尔加里语料库(Calgary Corpus) 总文件数共计1340个。 处理流程如下: 1. 提取所有文件并移除原始目录结构; 2. 创建批量打包目录:执行Shell命令`for ((n=1;n<100;n++));do mkdir bag$n; done`,生成bag1至bag99共99个打包目录; 3. 为各打包目录随机分配文件:执行Shell命令`for ((n=1;n<100;n++)); do shuf -zen$n ./* | xargs -0 mv -t ../bag$n/; done`,通过shuf工具随机选取对应数量的文件并移动至各打包目录; 4. 将打包目录转换为标准打包文件:使用bagit.py工具生成符合规范的打包包,命令参数为`bagit.py --md5 --source-organization UTL --internal-sender-description 'random bag generated for testing' --co$`。 备注:每个打包包的大小仅随其包含的文件数量增加而增大。
创建时间:
2023-12-28
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作