lilacai/lilac-the_movies_dataset
收藏Hugging Face2023-12-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lilacai/lilac-the_movies_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为the_movies_dataset,由Lilac生成,用于HuggingFace Space。数据集包含电影相关的概述信息,并提供了多种信号分析,如近似重复检测、个人身份信息检测、语言检测、文本统计等。此外,还包含了基于不同概念的评分信号,如法律终止、负面情绪、非英语内容、正面情绪、亵渎、问题、源代码和毒性等。数据集的源文件为CSV格式,存储在Google Cloud Storage中。
该数据集名为the_movies_dataset,由Lilac生成,用于HuggingFace Space。数据集包含电影相关的概述信息,并提供了多种信号分析,如近似重复检测、个人身份信息检测、语言检测、文本统计等。此外,还包含了基于不同概念的评分信号,如法律终止、负面情绪、非英语内容、正面情绪、亵渎、问题、源代码和毒性等。数据集的源文件为CSV格式,存储在Google Cloud Storage中。
提供机构:
lilacai
原始信息汇总
数据集概述
命名空间和名称
- 命名空间: lilac
- 名称: the_movies_dataset
数据来源
- 文件路径:
https://storage.googleapis.com/lilac-data/datasets/the_movies_dataset/the_movies_dataset.csv
- 数据源类型: csv
嵌入信息
- 路径: overview
- 嵌入类型: gte-small
信号信息
- 路径: overview
- 信号类型:
- near_dup
- pii
- lang_detection
- text_statistics
- concept_score (legal-termination)
- concept_score (negative-sentiment)
- concept_score (non-english)
- concept_score (positive-sentiment)
- concept_score (profanity)
- concept_score (question)
- concept_score (source-code)
- concept_score (toxicity)
- cluster_dbscan
- cluster_hdbscan
设置
- UI设置:
- 媒体路径: overview
- Markdown路径: 无
- 标签:
- other



