five

lilacai/lilac-pile-of-law-r-legaladvice

收藏
Hugging Face2023-09-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lilacai/lilac-pile-of-law-r-legaladvice
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由Lilac生成,用于HuggingFace Space。原始数据集为pile-of-law/pile-of-law。数据集配置包括嵌入设置、信号处理(如近重复检测、文本统计、PII检测、语言检测、命名实体识别等)以及概念评分(如情感分析、毒性检测、非英语内容检测等)。数据集标签为legal,表明其与法律相关。
提供机构:
lilacai
原始信息汇总

数据集概述

数据集名称

  • pile-of-law-r-legaladvice

命名空间

  • lilac

配置设置

  • 首选嵌入: gte-small
  • 媒体路径: [text]

信号配置

  • 路径: text
    • 信号名称: near_dup
    • 信号名称: text_statistics
    • 信号名称: pii
    • 信号名称: lang_detection
    • 信号名称: spacy_ner
    • 概念名称: positive-sentiment
      • 嵌入: gte-small
      • 信号名称: concept_score
    • 概念名称: toxicity
      • 嵌入: gte-small
      • 信号名称: concept_score
    • 概念名称: non-english
      • 嵌入: gte-small
      • 信号名称: concept_score
    • 概念名称: negative-sentiment
      • 嵌入: gte-small
      • 信号名称: concept_score
    • 概念名称: profanity
      • 嵌入: gte-small
      • 信号名称: concept_score
    • 概念名称: source-code
      • 嵌入: gte-small
      • 信号名称: concept_score
    • 概念名称: legal-termination
      • 嵌入: gte-small
      • 信号名称: concept_score
    • 概念名称: question
      • 嵌入: gte-small
      • 信号名称: concept_score

数据源

  • 配置名称: r_legaladvice
  • 数据集名称: pile-of-law/pile-of-law
  • 源名称: huggingface

标签

  • [legal]
二维码
社区交流群
二维码
科研交流群
商业服务