tos_pp_dataset

Hugging Face2024-12-26 更新2024-12-27 收录

下载链接：

https://huggingface.co/datasets/chenghao/tos_pp_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个不同的配置：1) 100_tos，包含100个示例，特征包括ID、名称、URL、日期、语言、字数、行业、总部、总部类别、公开、付费、有限责任公司、有限责任公司资本、期限、现状、赔偿、法律、论坛、仲裁、类别、合同变更、价格变更、服务变更、账户删除、转移、合同删除、账户暂停、推荐、通信系统、合同检索、知识产权、自由裁量、解释、严重性、建议、不明确、文档、核心1、核心2、核心3、what1至what7、全文等；2) cuad，包含28个示例，特征包括标签（结束、不可能、标签、开始、文本）、文件、文本；3) multilingual_unfair_clause，包含200个示例，特征包括语言、文件、条款（句子、标签）。

This dataset comprises three distinct configurations: 1) 100_tos: containing 100 samples, with features including ID, name, URL, date, language, word count, industry, headquarters, headquarters category, public, paid, limited liability company, limited liability company capital, term, status, compensation, law, forum, arbitration, category, contract change, price change, service change, account deletion, transfer, contract deletion, account suspension, recommendation, communication system, contract retrieval, intellectual property, discretion, interpretation, severity, suggestion, ambiguity, document, core1, core2, core3, what1 to what7, full text, etc.; 2) cuad: containing 28 samples, with features including tags (end, impossible, label, start, text), file, text; 3) multilingual_unfair_clause: containing 200 samples, with features including language, file, clause (sentence, label).

创建时间：

2024-12-24

原始信息汇总

数据集概述

数据集名称

tos_pp_dataset

许可证

MIT

数据集配置

配置1: 100_tos

特征:
- ID: int64
- name: string
- url: string
- date: string
- lang: string
- word_cnt: int64
- sector: string
- hq: string
- hq_cat: string
- public: string
- paid: string
- ltd: int64
- ltd_cap: int64
- period: int64
- as_is: int64
- indemn: int64
- c_law: int64
- c_forum: int64
- arb: int64
- class: int64
- contr_chg: int64
- price_chg: float64
- serv_chg: int64
- acc_del: int64
- transfer: int64
- cnt_del: float64
- acc_sus: int64
- recom: float64
- com_sys: int64
- cnt_retr: float64
- IP: float64
- discret: int64
- interpret: float64
- sever: int64
- suggest: int64
- uncle: int64
- docu: int64
- core1: string
- core2: string
- core3: string
- what1: string
- what2: string
- what3: string
- what4: string
- what5: string
- what6: string
- what7: string
- full_text: string
数据分割:
- train: 100个样本，4,616,065字节
下载大小: 2,311,712字节
数据集大小: 4,616,065字节

配置2: cuad

特征:
- labels:
  - end: int64
  - impossible: bool
  - label: string
  - start: int64
  - text: string
- file: string
- text: string
数据分割:
- train: 28个样本，1,146,730字节
下载大小: 511,291字节
数据集大小: 1,146,730字节

配置3: multilingual_unfair_clause

特征:
- language: string
- file: string
- clauses:
  - sentence: string
  - tags: sequence of string
数据分割:
- train: 200个样本，10,657,732字节
下载大小: 5,219,544字节
数据集大小: 10,657,732字节

搜集汇总

数据集介绍

构建方式

tos_pp_dataset的构建基于多个配置文件，涵盖了不同领域的数据集。其中，100_tos配置文件包含了100个样本，每个样本详细记录了ID、名称、URL、日期、语言、字数、行业、总部位置、总部类别、公开状态、付费状态、法律责任、资本限额、期限、现状、赔偿、适用法律、争议解决方式、仲裁、类别、合同变更、价格变更、服务变更、账户删除、转让、合同删除、账户暂停、推荐、通信系统、合同检索、知识产权、自由裁量、解释、终止、建议、不明确、文档、核心条款、具体内容等字段。cuad配置文件则包含了28个样本，主要涉及标签、文件、文本等信息。multilingual_unfair_clause配置文件则包含了200个样本，涵盖了语言、文件、条款等信息，每个条款又包含句子和标签。

特点

tos_pp_dataset的特点在于其多样性和全面性。100_tos配置文件提供了丰富的法律和商业信息，涵盖了多个行业和公司类型，适用于法律分析和商业研究。cuad配置文件则专注于合同条款的标注，适合自然语言处理任务。multilingual_unfair_clause配置文件则提供了多语言的不公平条款标注，适用于跨语言的法律文本分析。每个配置文件都经过精心设计，确保数据的准确性和实用性。

使用方法

使用tos_pp_dataset时，可以根据研究需求选择合适的配置文件。对于法律和商业分析，100_tos配置文件提供了全面的数据支持。对于自然语言处理任务，cuad配置文件提供了详细的合同条款标注。对于跨语言的法律文本分析，multilingual_unfair_clause配置文件则提供了多语言的不公平条款标注。用户可以通过HuggingFace平台下载数据集，并根据需要进行数据处理和分析。每个配置文件都提供了详细的字段说明，方便用户快速上手。

背景与挑战

背景概述

tos_pp_dataset数据集聚焦于服务条款（Terms of Service, ToS）的文本分析与法律条款的自动识别，旨在通过自然语言处理技术解析复杂的法律文档。该数据集由多个子集构成，包括100_tos、cuad和multilingual_unfair_clause，涵盖了不同语言、行业和法律条款的多样性。其核心研究问题在于如何从非结构化的法律文本中提取关键信息，并识别潜在的不公平条款。该数据集的创建为法律文本的自动化处理提供了重要资源，推动了法律科技领域的研究与应用。

当前挑战

tos_pp_dataset在解决法律文本自动化处理问题时面临多重挑战。首先，法律文本通常具有高度专业性和复杂性，其语义理解需要深厚的法律知识背景，这对模型的泛化能力提出了较高要求。其次，数据集的构建过程中，如何确保条款标注的准确性和一致性是一大难题，尤其是在多语言环境下，不同法律体系的差异增加了标注的复杂性。此外，法律文本的多样性和动态变化性也使得数据集的更新与维护成为一项长期挑战。

常用场景

经典使用场景

tos_pp_dataset数据集在合同条款分析领域具有广泛的应用，尤其适用于法律文本的自动解析与分类。研究者可以通过该数据集对服务条款中的不公平条款进行识别和分类，从而为法律合规性分析提供数据支持。数据集中的多语言配置使其能够跨语言进行条款分析，为全球范围内的法律文本研究提供了便利。

衍生相关工作

基于tos_pp_dataset，研究者开发了多款法律文本分析工具和模型。例如，一些研究利用该数据集训练了不公平条款检测模型，并在实际法律案例中进行了验证。此外，该数据集还催生了多语言合同条款分析系统的开发，为跨国企业的法律合规性检查提供了技术支持。

数据集最近研究