GuoFeng Webnovel Corpus|网络小说数据集|语言学数据集
收藏数据集概述
数据集名称
GuoFeng Webnovel: A Discourse-Level and Multilingual Corpus of Web Fiction
版权与许可
- 版权所有者:Tencent AI Lab 和 China Literature Ltd.
- 使用许可:CC BY 4.0,仅限非商业研究用途。
- 禁止事项:未经允许,不得修改或重新分发数据集。
数据集特点
- 丰富的语言和文化现象:文学文本包含比非文学文本更复杂的语言和文化知识。
- 长距离上下文:小说等文学作品的上下文比其他领域的文本更长。
- 人工通用智能:该数据集不仅推动机器翻译领域的现有研究,还启发大型语言模型的新研究。
数据集内容
- 覆盖类型:14种,包括幻想科学和浪漫等。
- 数据示例:从中文-英文集中抽样,展示丰富的语言现象。
数据集版本
- V1:包含22,567个连续章节,来自179部网络小说,文档级别,具有跨句子对齐信息。
- V2:包含约19K个连续章节,来自约120部网络小说,文档级别,无对齐信息。
数据集格式
- V1:使用HTML格式,包含书籍和章节标签,内容按句子分割并手动对齐。
- V2:使用文本文件格式,无标签和句子级别对齐信息。
数据集处理
- 原始文本为中文,由专业翻译人员翻译成其他语言。
- 数据处理包括自动和手动方法,确保章节和句子的对齐。
数据集下载
- 通过GitHub下载,需填写注册表单获取下载链接。
引用信息
- 使用该数据集需引用相关论文,并声明原始下载链接。
预训练模型
- 提供三种类型的预训练模型,包括Chinese-Llama-2-7B和RoBERTa等。
以上概述了GuoFeng Webnovel数据集的关键信息,包括其版权、特点、内容、版本、格式、处理方法、下载方式和引用要求。

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
World Bank - World Governance Indicators
世界银行的世界治理指标(World Governance Indicators, WGI)数据集提供了全球各国在六个治理维度上的评估数据,包括言论和问责、政治稳定和无暴力、政府效率、监管质量、法治以及腐败控制。这些指标基于多个来源的数据,旨在帮助政策制定者和研究人员了解和改善治理质量。
databank.worldbank.org 收录
ZuantuSet
ZuantuSet是一个包含超过71,000个中国历史视觉化和108,000个插图的数据集。该数据集由北京大学的一般人工智能国家重点实验室和智能科学技术学院通过半自动化的管道收集和提取历史书籍中的视觉化内容而构建。数据集涵盖了从公元前550年到1950年的中国历史视觉化作品。该数据集不仅揭示了历史中国视觉化的独特设计模式,还分析了其背后的历史和文化成因,为数字人文领域的研究提供了丰富的资源。
arXiv 收录