eduagarcia/LegalPT|法律文本数据集|葡萄牙语数据集
收藏数据集概述
基本信息
- 语言: 葡萄牙语 (pt)
- 数据集大小: 10M<n<100M
- 任务类别: 文本生成
- 标签: 法律
数据集配置详情
配置: all
- 特征:
id
: int64source
: stringorig_id
: int64text
: string
- 分割:
train
:- 字节数: 135151899572
- 样本数: 24194918
- 下载大小: 71423192838
- 数据集大小: 135151899572
配置: acordaos_tcu
- 特征:
id
: int64text
: stringmeta
:dedup
:exact_norm
:cluster_main_idx
: int64cluster_size
: int64exact_hash_idx
: int64is_duplicate
: bool
minhash
:cluster_main_idx
: int64cluster_size
: int64is_duplicate
: boolminhash_idx
: int64
- 分割:
train
:- 字节数: 3494790013
- 样本数: 634711
- 下载大小: 1653039356
- 数据集大小: 3494790013
配置: datastf
- 特征:
text
: stringmeta
:dedup
:exact_norm
:cluster_main_idx
: int64cluster_size
: int64exact_hash_idx
: int64is_duplicate
: bool
minhash
:cluster_main_idx
: int64cluster_size
: int64is_duplicate
: boolminhash_idx
: int64
id
: int64
- 分割:
train
:- 字节数: 3699382656
- 样本数: 737769
- 下载大小: 1724245648
- 数据集大小: 3699382656
配置: iudicium_textum
- 特征:
text
: stringmeta
:dedup
:exact_norm
:cluster_main_idx
: int64cluster_size
: int64exact_hash_idx
: int64is_duplicate
: bool
minhash
:cluster_main_idx
: int64cluster_size
: int64is_duplicate
: boolminhash_idx
: int64
id
: int64
- 分割:
train
:- 字节数: 896139675
- 样本数: 198387
- 下载大小: 408025309
- 数据集大小: 896139675
配置: mlp_pt_BRCAD-5
- 特征:
id
: int64text
: stringmeta
:dedup
:exact_norm
:cluster_main_idx
: int64cluster_size
: int64exact_hash_idx
: int64is_duplicate
: bool
minhash
:cluster_main_idx
: int64cluster_size
: int64is_duplicate
: boolminhash_idx
: int64
- 分割:
train
:- 字节数: 20311710293
- 样本数: 3128292
- 下载大小: 9735599974
- 数据集大小: 20311710293
配置: mlp_pt_CJPG
- 特征:
id
: int64text
: stringmeta
:dedup
:exact_norm
:cluster_main_idx
: int64cluster_size
: int64exact_hash_idx
: int64is_duplicate
: bool
minhash
:cluster_main_idx
: int64cluster_size
: int64is_duplicate
: boolminhash_idx
: int64
- 分割:
train
:- 字节数: 63201157801
- 样本数: 14068634
- 下载大小: 30473107046
- 数据集大小: 63201157801
配置: mlp_pt_eurlex-caselaw
- 特征:
id
: int64text
: stringmeta
:dedup
:exact_norm
:cluster_main_idx
: int64cluster_size
: int64exact_hash_idx
: int64is_duplicate
: bool
minhash
:cluster_main_idx
: int64cluster_size
: int64is_duplicate
: boolminhash_idx
: int64
- 分割:
train
:- 字节数: 1499601545
- 样本数: 104312
- 下载大小: 627235870
- 数据集大小: 1499601545
配置: mlp_pt_eurlex-contracts
- 特征:
id
: int64text
: stringmeta
:dedup
:exact_norm
:cluster_main_idx
: int64cluster_size
: int64exact_hash_idx
: int64is_duplicate
: bool
minhash
:cluster_main_idx
: int64cluster_size
: int64is_duplicate
: boolminhash_idx
: int64
- 分割:
train
:- 字节数: 467200973
- 样本数: 11581
- 下载大小: 112805426
- 数据集大小: 467200973
配置: mlp_pt_eurlex-legislation
- 特征:
id
: int64text
: stringmeta
:dedup
:exact_norm
:cluster_main_idx
: int64cluster_size
: int64exact_hash_idx
: int64is_duplicate
: bool
minhash
:cluster_main_idx
: int64cluster_size
: int64is_duplicate
: boolminhash_idx
: int64
- 分割:
train
:- 字节数: 5669271303
- 样本数: 232556
- 下载大小: 1384571339
- 数据集大小: 5669271303
配置: mlp_pt_legal-mc4
- 特征:
id
: int64text
: stringmeta
:dedup
:exact_norm
:cluster_main_idx
: int64cluster_size
: int64exact_hash_idx
: int64is_duplicate
: bool
minhash
:cluster_main_idx
: int64cluster_size
: int64is_duplicate
: boolminhash_idx
: int64
- 分割:
train
:- 字节数: 4483889482
- 样本数: 191174
- 下载大小: 2250422592
- 数据集大小: 4483889482
配置: parlamento-pt
- 特征:
id
: int64text
: stringmeta
:dedup
:exact_norm
:cluster_main_idx
: int64cluster_size
: int64exact_hash_idx
: int64is_duplicate
: bool
minhash
:cluster_main_idx
: int64cluster_size
: int64is_duplicate
: boolminhash_idx
: int64
- 分割:
train
:- 字节数: 2867291543
- 样本数: 2670846
- 下载大小: 1319479156
- 数据集大小: 2867291543
配置: tesemo_v2
- 特征:
id
: int64text
: stringmeta
:dedup
:exact_norm
:cluster_main_idx
: int64cluster_size
: int64exact_hash_idx
: int64is_duplicate
: bool
minhash
:cluster_main_idx
: int64cluster_size
: int64is_duplicate
: boolminhash_idx
: int64
- 分割:
train
:- 字节数: 29158221995
- 样本数: 2216656
- 下载大小: 13543440397
- 数据集大小: 29158221995
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
FSDD
FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。
github.com 收录