five

BioCite

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/mukhal/intrinsic-source-citation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为BioCite,是从BioS数据集中构建的人工合成预训练语料库。它包含了虚构人物的传记,每个传记中都列出了六个关于每个人的不同事实。该数据集旨在模拟真实的预训练数据,其中包括使用模板描述的属性,并且对文档ID进行了精心设计,以挑战模型的归因能力。该数据集的规模为10万份生成的文档,其任务是研究语言模型中的内在来源引用。

This dataset, named BioCite, is a synthetic pre-training corpus constructed from the BioS dataset. It includes biographies of fictional individuals, each containing six distinct facts about the corresponding person. This dataset is designed to simulate real pre-training data, which incorporates attributes described via templates, and its document IDs are meticulously designed to challenge the attribution capabilities of language models. Comprising 100,000 generated documents, the dataset is primarily utilized for investigating intrinsic source attribution in language models.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作