GenshinVoice|游戏语音数据集|多语言研究数据集
收藏数据集概述
数据集名称
GenshinVoice
数据集内容
- 包含原神游戏中直接提取的所有语音文件及其对应的文字文本。
- 已更新至3.8版本,result.json文件中包含91971条记录,其中86817条记录包含text文本信息,90925条记录包含npcName名称信息。
- 语音文件类型包括对话、羁绊、动画事件、天气独白、加入队伍、地下城提醒和卡片等。
数据集结构
- 所有语音文件以wav格式存储,保留原有采样率和声道信息。
- 文件路径遵循原始文件路径。
- 根目录下的NoData文件夹包含未从游戏数据中获取到任何相关信息的语音文件。
数据集使用注意事项
- 所有wav文件的采样率和声道数可能不同。
- 相同角色可能有不同的npcName,需通过文件名称中的角色名称来判断实际角色。
- text中可能包含以#开头的文本,内容含有游戏内替换项。
数据集贡献方式
- 如发现条目错误或缺失npcName或text的情况,可通过提交issue进行反馈。
- 可向项目提出PR,将含有#的text内容替换为实际语音内容,放置到cleaned_text项中。
数据集版权声明
- 所有音频版权属于米哈游,本数据集仅用于学习目的。
- 未经米哈游书面授权,不得将这些文件用于商业用途。
数据集链接

THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
TT100K - Tsinghua-Tencent 100K
TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。
cg.cs.tsinghua.edu.cn 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,由穆罕默德·本·扎耶德人工智能大学等机构创建,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理和眼底。数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学图像-文本数据,实现了可扩展的视觉-语言模型(VLM)预训练。UniMed旨在解决医学领域中公开可用的大规模图像-文本数据稀缺的问题,适用于多种医学成像任务,如零样本分类和跨模态泛化。
arXiv 收录