lilacai/lilac-imdb
收藏Hugging Face2023-12-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lilacai/lilac-imdb
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由Lilac生成,用于HuggingFace Space。原始数据集为IMDB,配置信息包括命名空间、名称、数据源、嵌入模型、信号处理等。信号处理部分涉及文本的多种分析,如近重复检测、PII检测、语言检测、情感分析、毒性检测、文本统计等。
The Lilac dataset, generated by Lilac from the original IMDB dataset, is used in a HuggingFace Space. It includes various signals and embeddings applied to text data, such as near_dup, pii, lang_detection, and concept scores for sentiments, toxicity, and other concepts. The dataset is tagged with machine-learning.
提供机构:
lilacai
原始信息汇总
数据集概述
基本信息
- 命名空间: lilac
- 名称: imdb
- 源数据集: imdb
- 数据源: huggingface
嵌入信息
- 路径: text
- 嵌入模型: gte-small
信号配置
- 路径: text
- 信号名称: near_dup
- 信号名称: pii
- 信号名称: lang_detection
- 信号名称: concept_score
- 嵌入模型: gte-small
- 命名空间: lilac
- 概念名称: positive-sentiment
- 信号名称: concept_score
- 嵌入模型: gte-small
- 命名空间: lilac
- 概念名称: non-english
- 信号名称: concept_score
- 嵌入模型: gte-small
- 命名空间: lilac
- 概念名称: toxicity
- 信号名称: concept_score
- 嵌入模型: gte-small
- 命名空间: lilac
- 概念名称: question
- 信号名称: concept_score
- 嵌入模型: gte-small
- 命名空间: lilac
- 概念名称: legal-termination
- 信号名称: concept_score
- 嵌入模型: gte-small
- 命名空间: lilac
- 概念名称: source-code
- 信号名称: concept_score
- 嵌入模型: gte-small
- 命名空间: lilac
- 概念名称: negative-sentiment
- 信号名称: concept_score
- 嵌入模型: gte-small
- 命名空间: lilac
- 概念名称: profanity
- 信号名称: text_statistics
- 信号名称: cluster_dbscan
- 信号名称: cluster_hdbscan
- 嵌入模型: gte-small
设置
- UI媒体路径: text
- 标签: machine-learning



