dstc8-reddit-corpus|社交平台数据集|对话数据数据集
收藏数据集概述
基本信息
- 名称: dstc8-reddit
- 目的: 用于DSTC 8 Competition, Multi-Domain End-to-End Track, Task 2: Fast Adaptation的Reddit语料构建代码
- 数据来源: 从3rd party Pushshift repository下载的原始数据
数据集生成
要求
- Python版本: 3.5+
- 存储空间: 约210 GB(默认设置下构建对话),最终压缩包大小为4.2 GB
- 生成时间: 24-72小时,取决于互联网连接速度、核心数和RAM大小
生成步骤
- 修改配置文件中的
run_dir
以指定数据生成位置。 - 使用
python setup.py install
安装包。 - 使用
python scripts/reddit.py generate
生成数据。
语料信息
- 数据范围: 2017年11月至2018年10月
- 子论坛选择: 1000个相对非毒性的子论坛,每个至少有75,000订阅者
- 对话采样: 每个帖子最多采样两个对话,来自不同的顶级评论
- 对话长度: 每个对话至少包含4个回合
- 数据过滤: 基于Reddit API字段,排除机器人内容等
- 最终数据集大小: 约4.2 GB
数据集结构
- 压缩包结构:
dialogues/training
: 5,085,113个对话dialogues/validation_date_in_domain_in
: 254,624个对话dialogues/validation_date_in_domain_out
: 1,278,998个对话dialogues/validation_date_out_domain_in
: 1,037,977个对话dialogues/validation_date_out_domain_out
: 262,036个对话
数据格式
- 文件格式: 每个对话文件包含一个对话,每行是一个JSON字符串
- JSON结构: json { "id": "...", "domain": "...", "task_id": "...", "bot_id": "", "user_id": "", "turns": [...] }
使用示例
- Python读取示例: python with zipfile.ZipFile(dstc8-reddit-corpus.zip,r) as myzip: with io.TextIOWrapper(myzip.open(dialogues/training/askreddit.txt), encoding=utf-8) as f: for line in f: dlg = json.loads(line)

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
38-Cloud
该数据集包含38幅Landsat 8场景图像及其手动提取的像素级云检测地面实况。数据集被分割成多个384*384的补丁,适合深度学习语义分割算法。训练集有8400个补丁,测试集有9201个补丁。每个补丁包含4个对应的谱通道:红色、绿色、蓝色和近红外。
github 收录
TT100K - Tsinghua-Tencent 100K
TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。
cg.cs.tsinghua.edu.cn 收录
Wafer Defect
该数据集包含了七个主要类别的晶圆缺陷,分别是:BLOCK ETCH、COATING BAD、PARTICLE、PIQ PARTICLE、PO CONTAMINATION、SCRATCH和SEZ BURNT。这些类别涵盖了晶圆在生产过程中可能出现的多种缺陷类型,每一种缺陷都有其独特的成因和表现形式。数据集不仅在类别数量上具有多样性,而且在样本的多样性和复杂性上也展现了其广泛的应用潜力。每个类别的样本均经过精心标注,确保了数据的准确性和可靠性。
github 收录