botp/RyokoAI_CNNovel125K|文本生成数据集|中文小说数据集
收藏数据集卡片 for CNNovel125K
数据集描述
- 数据集名称: CNNovel125K
- 数据集概述: CNNovel125K 是一个包含约 125,000 本小说的大型数据集,这些小说从中国小说托管网站 http://ibiquw.com 下载。
支持的任务和排行榜
该数据集主要用于无监督的文本生成模型训练,但也可能适用于其他用途。
- 文本分类
- 文本生成
语言
- 简体中文
数据集结构
数据实例
json { "text": "
全部章节
第一章 她肯定做梦呢!
HT国际大酒店总统套房。
清晨的第一缕阳光照射进圣地亚哥地板上,洒落在凌乱的床单上,突然地,床上睡的正熟的人睁开眼睛,
猛然惊醒!
...",
"meta": { "subset": "cnnovel.ibiquw", "id": "100067", "q": 0.9, "lang": "zh_cn", "title": "为爱入局:嫁给秦先生", "author": "奥德萨" } } { "text": "
全部章节
第1章:出狱就大婚
凉城第一监狱,大门缓缓打开,秦峰仰起头,贪婪的呼吸了一口空气。
三年了,终于又闻到了自由的味道。
他回过头,看着目
送他出来的那群人道:...", "meta": { "subset": "cnnovel.ibiquw", "id": "100059", "q": 0.9, "lang": "zh_cn", "title": "绝世弃婿", "author": "绷带怪" } }
数据字段
text
: 实际的小说文本,包含所有章节meta
: 条目元数据subset
: 数据集标签:cnnovel.ibiquw
id
: 小说IDq
: 质量分数,固定为0.9lang
: 始终为zh_cn
(简体中文)title
: 小说标题author
: 小说作者
数据分割
数据未进行分割。
数据集创建
数据来源
初始数据收集和规范化
TODO
源语言生产者是谁?
每本小说的作者。
注释
注释过程
标题与小说文本和ID一起收集。
注释者是谁?
没有人工注释者。
个人和敏感信息
该数据集仅包含虚构作品,我们不认为它包含任何个人身份信息(PII)。
使用数据的注意事项
数据集的社会影响
该数据集旨在对希望训练模型以生成“更有趣”中文内容的人有用。它也可能对其他语言有用,具体取决于您的语言模型。
偏见的讨论
该数据集由不同作者的虚构作品组成。因此,该数据集的内容将反映这些作者的偏见。注意刻板印象。
其他已知限制
N/A
附加信息
数据集策展人
Ronsor Labs
许可信息
Apache 2.0,对于Ronsor Labs或Ryoko AI Production Committee可能被视为作者的所有部分。所有其他材料根据合理使用原则分发。
引用信息
@misc{ryokoai2023-bigknow2022, title = {BigKnow2022: Bringing Language Models Up to Speed}, author = {Ronsor}, year = {2023}, howpublished = {url{https://github.com/RyokoAI/BigKnow2022}}, }
贡献
感谢 @ronsor (GH) 收集此数据集。

中国区域教育数据库
该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。
www.moe.gov.cn 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录