five

tos_pp_dataset|法律文档数据集|合同分析数据集

收藏
huggingface2024-12-26 更新2024-12-27 收录
法律文档
合同分析
下载链接:
https://huggingface.co/datasets/chenghao/tos_pp_dataset
下载链接
链接失效反馈
资源简介:
该数据集包含三个不同的配置:1) 100_tos,包含100个示例,特征包括ID、名称、URL、日期、语言、字数、行业、总部、总部类别、公开、付费、有限责任公司、有限责任公司资本、期限、现状、赔偿、法律、论坛、仲裁、类别、合同变更、价格变更、服务变更、账户删除、转移、合同删除、账户暂停、推荐、通信系统、合同检索、知识产权、自由裁量、解释、严重性、建议、不明确、文档、核心1、核心2、核心3、what1至what7、全文等;2) cuad,包含28个示例,特征包括标签(结束、不可能、标签、开始、文本)、文件、文本;3) multilingual_unfair_clause,包含200个示例,特征包括语言、文件、条款(句子、标签)。
创建时间:
2024-12-24
原始信息汇总

数据集概述

数据集名称

tos_pp_dataset

许可证

MIT

数据集配置

配置1: 100_tos

  • 特征:
    • ID: int64
    • name: string
    • url: string
    • date: string
    • lang: string
    • word_cnt: int64
    • sector: string
    • hq: string
    • hq_cat: string
    • public: string
    • paid: string
    • ltd: int64
    • ltd_cap: int64
    • period: int64
    • as_is: int64
    • indemn: int64
    • c_law: int64
    • c_forum: int64
    • arb: int64
    • class: int64
    • contr_chg: int64
    • price_chg: float64
    • serv_chg: int64
    • acc_del: int64
    • transfer: int64
    • cnt_del: float64
    • acc_sus: int64
    • recom: float64
    • com_sys: int64
    • cnt_retr: float64
    • IP: float64
    • discret: int64
    • interpret: float64
    • sever: int64
    • suggest: int64
    • uncle: int64
    • docu: int64
    • core1: string
    • core2: string
    • core3: string
    • what1: string
    • what2: string
    • what3: string
    • what4: string
    • what5: string
    • what6: string
    • what7: string
    • full_text: string
  • 数据分割:
    • train: 100个样本,4,616,065字节
  • 下载大小: 2,311,712字节
  • 数据集大小: 4,616,065字节

配置2: cuad

  • 特征:
    • labels:
      • end: int64
      • impossible: bool
      • label: string
      • start: int64
      • text: string
    • file: string
    • text: string
  • 数据分割:
    • train: 28个样本,1,146,730字节
  • 下载大小: 511,291字节
  • 数据集大小: 1,146,730字节

配置3: multilingual_unfair_clause

  • 特征:
    • language: string
    • file: string
    • clauses:
      • sentence: string
      • tags: sequence of string
  • 数据分割:
    • train: 200个样本,10,657,732字节
  • 下载大小: 5,219,544字节
  • 数据集大小: 10,657,732字节
AI搜集汇总
数据集介绍
main_image_url
构建方式
tos_pp_dataset的构建基于多个配置文件,涵盖了不同领域的数据集。其中,100_tos配置文件包含了100个样本,每个样本详细记录了ID、名称、URL、日期、语言、字数、行业、总部位置、总部类别、公开状态、付费状态、法律责任、资本限额、期限、现状、赔偿、适用法律、争议解决方式、仲裁、类别、合同变更、价格变更、服务变更、账户删除、转让、合同删除、账户暂停、推荐、通信系统、合同检索、知识产权、自由裁量、解释、终止、建议、不明确、文档、核心条款、具体内容等字段。cuad配置文件则包含了28个样本,主要涉及标签、文件、文本等信息。multilingual_unfair_clause配置文件则包含了200个样本,涵盖了语言、文件、条款等信息,每个条款又包含句子和标签。
特点
tos_pp_dataset的特点在于其多样性和全面性。100_tos配置文件提供了丰富的法律和商业信息,涵盖了多个行业和公司类型,适用于法律分析和商业研究。cuad配置文件则专注于合同条款的标注,适合自然语言处理任务。multilingual_unfair_clause配置文件则提供了多语言的不公平条款标注,适用于跨语言的法律文本分析。每个配置文件都经过精心设计,确保数据的准确性和实用性。
使用方法
使用tos_pp_dataset时,可以根据研究需求选择合适的配置文件。对于法律和商业分析,100_tos配置文件提供了全面的数据支持。对于自然语言处理任务,cuad配置文件提供了详细的合同条款标注。对于跨语言的法律文本分析,multilingual_unfair_clause配置文件则提供了多语言的不公平条款标注。用户可以通过HuggingFace平台下载数据集,并根据需要进行数据处理和分析。每个配置文件都提供了详细的字段说明,方便用户快速上手。
背景与挑战
背景概述
tos_pp_dataset数据集聚焦于服务条款(Terms of Service, ToS)的文本分析与法律条款的自动识别,旨在通过自然语言处理技术解析复杂的法律文档。该数据集由多个子集构成,包括100_tos、cuad和multilingual_unfair_clause,涵盖了不同语言、行业和法律条款的多样性。其核心研究问题在于如何从非结构化的法律文本中提取关键信息,并识别潜在的不公平条款。该数据集的创建为法律文本的自动化处理提供了重要资源,推动了法律科技领域的研究与应用。
当前挑战
tos_pp_dataset在解决法律文本自动化处理问题时面临多重挑战。首先,法律文本通常具有高度专业性和复杂性,其语义理解需要深厚的法律知识背景,这对模型的泛化能力提出了较高要求。其次,数据集的构建过程中,如何确保条款标注的准确性和一致性是一大难题,尤其是在多语言环境下,不同法律体系的差异增加了标注的复杂性。此外,法律文本的多样性和动态变化性也使得数据集的更新与维护成为一项长期挑战。
常用场景
经典使用场景
tos_pp_dataset数据集在合同条款分析领域具有广泛的应用,尤其适用于法律文本的自动解析与分类。研究者可以通过该数据集对服务条款中的不公平条款进行识别和分类,从而为法律合规性分析提供数据支持。数据集中的多语言配置使其能够跨语言进行条款分析,为全球范围内的法律文本研究提供了便利。
衍生相关工作
基于tos_pp_dataset,研究者开发了多款法律文本分析工具和模型。例如,一些研究利用该数据集训练了不公平条款检测模型,并在实际法律案例中进行了验证。此外,该数据集还催生了多语言合同条款分析系统的开发,为跨国企业的法律合规性检查提供了技术支持。
数据集最近研究
最新研究方向
在数字法律与合同分析领域,tos_pp_dataset为研究者和从业者提供了丰富的多语言合同条款数据,涵盖了从公司基本信息到具体法律条款的广泛内容。近年来,随着全球数字化转型的加速,合同条款的自动分析与不公平条款的检测成为研究热点。该数据集的最新研究方向聚焦于利用自然语言处理(NLP)技术,特别是基于深度学习的模型,对合同文本进行语义解析和条款分类。通过结合多语言文本处理技术,研究者能够更高效地识别潜在的法律风险和不公平条款,从而为企业和个人提供更全面的法律保护。此外,该数据集还被广泛应用于法律智能系统的开发,推动了法律科技领域的创新与发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录