five

lilacai/lilac-the_movies_dataset

收藏
Hugging Face2023-12-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lilacai/lilac-the_movies_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为the_movies_dataset,由Lilac生成,用于HuggingFace Space。数据集包含电影相关的概述信息,并提供了多种信号分析,如近似重复检测、个人身份信息检测、语言检测、文本统计等。此外,还包含了基于不同概念的评分信号,如法律终止、负面情绪、非英语内容、正面情绪、亵渎、问题、源代码和毒性等。数据集的源文件为CSV格式,存储在Google Cloud Storage中。

该数据集名为the_movies_dataset,由Lilac生成,用于HuggingFace Space。数据集包含电影相关的概述信息,并提供了多种信号分析,如近似重复检测、个人身份信息检测、语言检测、文本统计等。此外,还包含了基于不同概念的评分信号,如法律终止、负面情绪、非英语内容、正面情绪、亵渎、问题、源代码和毒性等。数据集的源文件为CSV格式,存储在Google Cloud Storage中。
提供机构:
lilacai
原始信息汇总

数据集概述

命名空间和名称

  • 命名空间: lilac
  • 名称: the_movies_dataset

数据来源

  • 文件路径:
    • https://storage.googleapis.com/lilac-data/datasets/the_movies_dataset/the_movies_dataset.csv
  • 数据源类型: csv

嵌入信息

  • 路径: overview
  • 嵌入类型: gte-small

信号信息

  • 路径: overview
  • 信号类型:
    • near_dup
    • pii
    • lang_detection
    • text_statistics
    • concept_score (legal-termination)
    • concept_score (negative-sentiment)
    • concept_score (non-english)
    • concept_score (positive-sentiment)
    • concept_score (profanity)
    • concept_score (question)
    • concept_score (source-code)
    • concept_score (toxicity)
    • cluster_dbscan
    • cluster_hdbscan

设置

  • UI设置:
    • 媒体路径: overview
    • Markdown路径: 无
  • 标签:
    • other
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作