OpenWebText|网络文本分析数据集|社交媒体数据数据集
收藏
- OpenWebText数据集首次发布,由OpenAI的研究人员创建,旨在提供一个大规模的、多样化的文本数据集,用于训练语言模型。
- OpenWebText数据集被广泛应用于多个自然语言处理任务,包括文本生成、机器翻译和问答系统,显著提升了这些任务的性能。
- 随着更多研究者和开发者的使用,OpenWebText数据集的影响力进一步扩大,成为自然语言处理领域的重要基准数据集之一。
- 1OpenWebText: An Open-Source Alternative to WebTextOpenAI · 2019年
- 2Language Models are Few-Shot LearnersOpenAI · 2020年
- 3The Pile: An 800GB Dataset of Diverse Text for Language ModelingEleutherAI · 2020年
- 4Scaling Laws for Neural Language ModelsOpenAI · 2020年
- 5Improving Language Understanding by Generative Pre-TrainingOpenAI · 2018年
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录