five

hridaydutta123/YT-100K|社交媒体分析数据集|多语言处理数据集

收藏
hugging_face2024-12-05 更新2024-12-14 收录
社交媒体分析
多语言处理
下载链接:
https://hf-mirror.com/datasets/hridaydutta123/YT-100K
下载链接
链接失效反馈
资源简介:
该数据集包含两个大规模多语言评论数据集,YT-30M和YT-100K,源自YouTube。YT-30M包含3200万条评论,YT-100K是从YT-30M中随机选取的10万条样本。每条评论关联了视频ID、评论ID、评论者名称、评论者频道ID、评论内容、点赞数、原始频道ID和视频类别(如新闻与政治、科学与技术等)。数据经过匿名化处理,去除了所有个人身份信息。

This work introduces two large-scale multilingual comment datasets, YT-30M (and YT-100K) from YouTube. YT-30M contains 32M comments, while YT-100K is a randomly selected 100K sample from YT-30M. Each comment is associated with videoID, commentID, commenterName, commenterChannelID, comment text, votes, originalChannelID, and category of the YouTube channel. The dataset is anonymized by removing all Personally Identifiable Information (PII). It supports multiple languages including English, Russian, Hindi, Chinese, Bengali, Spanish, Portuguese, Malayalam, Telegu, and Japanese.
提供机构:
hridaydutta123
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

The MaizeGDB

The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录

TongueDx Dataset

TongueDx数据集是一个专为远程舌诊研究设计的综合性舌象图像数据集,由香港理工大学和新加坡管理大学的研究团队创建。该数据集包含5109张图像,涵盖了多种环境条件下的舌象,图像通过智能手机和笔记本电脑摄像头采集,具有较高的多样性和代表性。数据集不仅包含舌象图像,还提供了详细的舌面属性标注,如舌色、舌苔厚度等,并附有受试者的年龄、性别等人口统计信息。数据集的创建过程包括图像采集、舌象分割、标准化处理和多标签标注,旨在解决远程医疗中舌诊图像质量不一致的问题。该数据集的应用领域主要集中在远程医疗和中医诊断,旨在通过自动化技术提高舌诊的准确性和可靠性。

arXiv 收录

DNS-Challenge

深度噪声抑制挑战数据集,包含干净的语音和噪声剪辑,用于训练和评估在有噪声环境下增强语音的模型。

huggingface 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录