five

AgentZeroCopeAI/lore-corpus

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/AgentZeroCopeAI/lore-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
COPEAI Lore Corpus是一个开放数据集,包含角色设定、特工档案、博客文章、FAQ语料库、情绪标签定义和披露文本等内容,源自COPEAI——一个以AI为主题的Solana模因币讽刺项目。数据集中的所有条目均为虚构的角色讽刺内容,不构成任何财务建议或投资指导。数据集包含75个条目,格式为JSON Lines,支持英语和简体中文,采用CC-BY-SA-4.0许可协议。条目种类包括特工档案、引用、传说、案例文件、术语表、FAQ、博客、情绪定义和合规文本等。每个条目都有唯一的ID、类型、文本内容、元数据、许可信息和创建时间等字段。数据集要求在使用时进行署名,并且衍生作品必须采用相同的许可协议。

The COPEAI Lore Corpus is an open dataset containing in-character lore, agent dossiers, blog dispatches, FAQ corpus, mood label definitions, and disclosure copy from COPEAI—an AI-themed Solana memecoin satire. All entries in the dataset are fictional in-character satire and do not constitute financial advice or investment guidance. The dataset includes 75 entries in JSON Lines format, supporting English and Simplified Chinese, and is licensed under CC-BY-SA-4.0. Entry kinds include agent dossiers, quotes, lore, case files, glossary terms, FAQs, blog posts, mood definitions, and compliance copy. Each entry has a unique ID, kind, text content, metadata, license information, and creation time. The dataset requires attribution when used, and derivative works must be licensed under the same terms.
提供机构:
AgentZeroCopeAI
搜集汇总
数据集介绍
main_image_url
构建方式
Lore Corpus由COPEAI项目构建,源自其代码库在每次网站部署时自动生成,确保了数据集与线上内容同步。该数据集以JSON Lines格式存储,包含75条条目,涵盖英文和简体中文两种语言。每条条目遵循统一架构,包含模式版本、唯一标识符、类别字段、主文本内容、类别特定元数据、许可信息、出处声明及语言标签。数据的生成整合了虚构角色档案、事件日志、常见问题解答、博客日志、市场情绪标签及合规声明等多元内容,旨在服务于以人工智能为主题的Solana模因币讽刺项目。
特点
该数据集的核心特色在于其丰富多样的条目类型,共划分为九大类:角色档案、语录、传说、案件卷宗、术语词汇表、常见问题问答、长篇博客日志、市场情绪标签及合规披露文本。所有内容均为虚构的角色扮演式讽刺材料,明确声明不作为任何金融服务或投资建议。数据集采用CC-BY-SA-4.0许可协议,要求衍生作品沿用相同许可。其元数据结构支持针对特定类别的高效过滤与检索,适应自然语言处理领域的文本生成与文本分类任务。
使用方法
研究人员可通过Hugging Face的datasets库便捷加载该数据集,使用`load_dataset('copeai/lore-corpus', split='train')`命令即可获取全部75条条目。加载后,利用`filter`方法可按类别筛选子集,例如`ds.filter(lambda e: e['kind'] == 'agent')`可提取角色档案数据。数据集搭配Python示例加载代码与CITATION.cff引用文件,方便学术引用。使用者需遵守CC-BY-SA-4.0许可要求,在二次分发或衍生作品中注明出处,并确保衍生作品采用兼容许可协议。
背景与挑战
背景概述
COPEAI Lore Corpus是由COPEAI团队于2026年创建的一个多语言数据集,旨在捕捉Solana生态中Pump.fun平台上的迷因币讽刺文化。该数据集由75条精心构造的条目构成,涵盖角色档案、传说事件、FAQ、博客通报及情绪标签等九类内容,并以中英双语呈现。作为AI主题讽刺项目的一部分,它首次系统性地将虚构角色与市场情绪文本相结合,为研究网络亚文化、区块链语境下的叙事生成以及讽刺文本的多模态理解提供了独特资源。其采用CC-BY-SA-4.0许可,确保学术可复现性与责任归属,对计算社会科学与自然语言处理领域产生了开拓性影响。
当前挑战
该数据集所解决的领域挑战在于如何从混乱、非标准的迷因币社区文本中提取结构化、可标注的讽刺与情绪信息。构建过程中面临三大难题:一是内容的高度虚构性与情境依赖性,使得传统情感分析模型难以准确映射角色言语与实际市场情绪间的微妙关联;二是双语(英文与简体中文)平行语料稀少,且讽刺修辞在跨语言转换中容易失真;三是仅有的75条样本量极小,对模型泛化能力构成严峻考验,需在有限监督信号下设计出鲁棒的特征表示方法。
常用场景
经典使用场景
在数字文化与人工智能交汇的前沿领域,Lore Corpus 数据集以其独特的虚构叙事文本集合,为自然语言生成与多模态语义理解提供了宝贵的语料资源。该数据集精心收录了涵盖角色档案、事件日志、问答语库、博客长文及讽刺性市场情绪标签等九类文本,共计75条高质量条目,并以英文与简体中文双语形式呈现。研究者常将其用于训练能够捕捉特定亚文化语境与角色一致性的对话生成模型,或作为测试大型语言模型讽刺语义理解能力的基准语料。
解决学术问题
该数据集系统性地回应了当前自然语言处理研究中关于非正式、虚构与讽刺性语言理解的挑战。它解决了从有限样本中学习复杂叙事结构、维持多角色对话一致性以及跨语言讽刺语料标注稀缺等问题。通过提供包含明确定义的情绪阈值标签和法律合规声明的结构化工件,Lore Corpus 促进了文本生成模型在高度语境化场景下的可控性研究,推动了针对模因币生态等新兴数字亚文化领域的语义理解方法的发展,其开源共享协议更提高了学术可复现性。
衍生相关工作
基于这个紧密耦合于实时部署代码的语料库,学术界与开发者社区已衍生出若干创新性工作。例如,有研究借助其清晰的 CC-BY-SA-4.0 授权协议,将角色档案作为微调开源大模型的指令数据,以模仿特定讽刺风格;另有项目将其双语 FAQ 部分扩展为多语言翻译质量评估的小型测试集。该数据集持续与 COPEAI 网站同步更新的特性,亦催生了关注动态语料管理工具的工程实践,以及围绕虚构事件日志展开的交互式叙事生成系统的原型验证,凸显了虚构语料在可控文本生成领域的拓展潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作