ParaCrawl/para_crawl|多语言翻译数据集|机器翻译数据集
收藏数据集概述
基本信息
- 数据集名称: ParaCrawl
- 语言: 包含多种欧洲语言,具体包括:bg, cs, da, de, el, en, es, et, fi, fr, ga, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv
- 许可证: cc0-1.0
- 多语言性: 翻译
- 数据集大小: 10M<n<100M
- 源数据: 原始数据
- 任务类别: 翻译
数据集配置
配置名称: enbg
- 特征:
translation
: 包含语言对en-bg
- 分割:
train
:- 字节数: 356532771
- 样本数: 1039885
- 下载大小: 103743335
- 数据集大小: 356532771
配置名称: encs
- 特征:
translation
: 包含语言对en-cs
- 分割:
train
:- 字节数: 638068353
- 样本数: 2981949
- 下载大小: 196410022
- 数据集大小: 638068353
配置名称: enda
- 特征:
translation
: 包含语言对en-da
- 分割:
train
:- 字节数: 598624306
- 样本数: 2414895
- 下载大小: 182804827
- 数据集大小: 598624306
配置名称: ende
- 特征:
translation
: 包含语言对en-de
- 分割:
train
:- 字节数: 3997191986
- 样本数: 16264448
- 下载大小: 1307754745
- 数据集大小: 3997191986
配置名称: enel
- 特征:
translation
: 包含语言对en-el
- 分割:
train
:- 字节数: 688069020
- 样本数: 1985233
- 下载大小: 193553374
- 数据集大小: 688069020
配置名称: enes
- 特征:
translation
: 包含语言对en-es
- 分割:
train
:- 字节数: 6209466040
- 样本数: 21987267
- 下载大小: 1953839527
- 数据集大小: 6209466040
配置名称: enet
- 特征:
translation
: 包含语言对en-et
- 分割:
train
:- 字节数: 201408919
- 样本数: 853422
- 下载大小: 70158650
- 数据集大小: 201408919
配置名称: enfi
- 特征:
translation
: 包含语言对en-fi
- 分割:
train
:- 字节数: 524624150
- 样本数: 2156069
- 下载大小: 159209242
- 数据集大小: 524624150
配置名称: enfr
- 特征:
translation
: 包含语言对en-fr
- 分割:
train
:- 字节数: 9015440258
- 样本数: 31374161
- 下载大小: 2827554088
- 数据集大小: 9015440258
配置名称: enga
- 特征:
translation
: 包含语言对en-ga
- 分割:
train
:- 字节数: 104523278
- 样本数: 357399
- 下载大小: 29394367
- 数据集大小: 104523278
配置名称: enhr
- 特征:
translation
: 包含语言对en-hr
- 分割:
train
:- 字节数: 247646552
- 样本数: 1002053
- 下载大小: 84904103
- 数据集大小: 247646552
配置名称: enhu
- 特征:
translation
: 包含语言对en-hu
- 分割:
train
:- 字节数: 403168065
- 样本数: 1901342
- 下载大小: 119784765
- 数据集大小: 403168065
配置名称: enit
- 特征:
translation
: 包含语言对en-it
- 分割:
train
:- 字节数: 3340542050
- 样本数: 12162239
- 下载大小: 1066720197
- 数据集大小: 3340542050
配置名称: enlt
- 特征:
translation
: 包含语言对en-lt
- 分割:
train
:- 字节数: 197053694
- 样本数: 844643
- 下载大小: 66358392
- 数据集大小: 197053694
配置名称: enlv
- 特征:
translation
: 包含语言对en-lv
- 分割:
train
:- 字节数: 142409870
- 样本数: 553060
- 下载大小: 47368967
- 数据集大小: 142409870
配置名称: enmt
- 特征:
translation
: 包含语言对en-mt
- 分割:
train
:- 字节数: 52786023
- 样本数: 195502
- 下载大小: 19028352
- 数据集大小: 52786023
配置名称: ennl
- 特征:
translation
: 包含语言对en-nl
- 分割:
train
:- 字节数: 1384042007
- 样本数: 5659268
- 下载大小: 420090979
- 数据集大小: 1384042007
配置名称: enpl
- 特征:
translation
: 包含语言对en-pl
- 分割:
train
:- 字节数: 854786500
- 样本数: 3503276
- 下载大小: 270427885
- 数据集大小: 854786500
配置名称: enpt
- 特征:
translation
: 包含语言对en-pt
- 分割:
train
:- 字节数: 2031891156
- 样本数: 8141940
- 下载大小: 638184462
- 数据集大小: 2031891156
配置名称: enro
- 特征:
translation
: 包含语言对en-ro
- 分割:
train
:- 字节数: 518359240
- 样本数: 1952043
- 下载大小: 160684751
- 数据集大小: 518359240
配置名称: ensk
- 特征:
translation
: 包含语言对en-sk
- 分割:
train
:- 字节数: 337704729
- 样本数: 1591831
- 下载大小: 101307152
- 数据集大小: 337704729
配置名称: ensl
- 特征:
translation
: 包含语言对en-sl
- 分割:
train
:- 字节数: 182399034
- 样本数: 660161
- 下载大小: 65037465
- 数据集大小: 182399034
配置名称: ensv
- 特征:
translation
: 包含语言对en-sv
- 分割:
train
:- 字节数: 875576366
- 样本数: 3476729
- 下载大小: 275528370
- 数据集大小: 875576366

Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
全国 1∶200 000 数字地质图(公开版)空间数据库
As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.
DataCite Commons 收录
专精特新“小巨人”合肥企业名单(第一批~第四批)
根据工信部的定义,专精特新“小巨人”企业是“专精特新”中小企业中的佼佼者,是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。 截止第四批,目前,全市“小巨人”企业总数达140户,占全国的1.6%,在全国城市及省会城市排名各进一位,位居全国城市第十四,省会城市第五。 2022 年 6 月,合肥市发布《专精特新中小企业倍增培育行动计划》,到2025年,合肥计划培育省级专精特新冠军企业和国家级专精特新“小巨人”企业300家,推动50家专精特新中小企业上市挂牌。接下来,合肥还将支持地方国有金融机构设立专精特新专项融资产品,力争每条产业链培育一批国家级专精特新“小巨人”企业。
合肥数据要素流通平台 收录