tos_pp_dataset|法律文档数据集|合同分析数据集
收藏数据集概述
数据集名称
tos_pp_dataset
许可证
MIT
数据集配置
配置1: 100_tos
- 特征:
- ID: int64
- name: string
- url: string
- date: string
- lang: string
- word_cnt: int64
- sector: string
- hq: string
- hq_cat: string
- public: string
- paid: string
- ltd: int64
- ltd_cap: int64
- period: int64
- as_is: int64
- indemn: int64
- c_law: int64
- c_forum: int64
- arb: int64
- class: int64
- contr_chg: int64
- price_chg: float64
- serv_chg: int64
- acc_del: int64
- transfer: int64
- cnt_del: float64
- acc_sus: int64
- recom: float64
- com_sys: int64
- cnt_retr: float64
- IP: float64
- discret: int64
- interpret: float64
- sever: int64
- suggest: int64
- uncle: int64
- docu: int64
- core1: string
- core2: string
- core3: string
- what1: string
- what2: string
- what3: string
- what4: string
- what5: string
- what6: string
- what7: string
- full_text: string
- 数据分割:
- train: 100个样本,4,616,065字节
- 下载大小: 2,311,712字节
- 数据集大小: 4,616,065字节
配置2: cuad
- 特征:
- labels:
- end: int64
- impossible: bool
- label: string
- start: int64
- text: string
- file: string
- text: string
- labels:
- 数据分割:
- train: 28个样本,1,146,730字节
- 下载大小: 511,291字节
- 数据集大小: 1,146,730字节
配置3: multilingual_unfair_clause
- 特征:
- language: string
- file: string
- clauses:
- sentence: string
- tags: sequence of string
- 数据分割:
- train: 200个样本,10,657,732字节
- 下载大小: 5,219,544字节
- 数据集大小: 10,657,732字节

中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
Fruits-360
一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。
github 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录