Reacubeth/Quintuple
收藏Hugging Face2023-05-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Reacubeth/Quintuple
下载链接
链接失效反馈官方服务:
资源简介:
Co-occurrence Citation Quintuple数据集是用于训练文本生成模型,以通过概念共现来探索和表达学术思想的官方数据集。该数据集通过构建概念共现图来识别和处理概念,并采用启发式规则过滤冗余和噪声句子,从而提高用于思想生成的五元组质量。数据集的统计摘要展示了不同学科的数据量,包括艺术、历史、哲学、社会学、政治学、商业、地理、工程、地质学、医学、经济学、物理学、生物学、数学、心理学、计算机科学、环境科学、材料科学和化学。每个文件是一个列表,形式为[[c_1, c_2, p, p_1, p_2], ...],其中c_1和c_2是概念,p是目标文本,即表达的思想。
提供机构:
Reacubeth
原始信息汇总
数据集概述
数据集名称
Co-occurrence Citation Quintuple
数据集描述
该数据集是为训练文本生成模型以实现学术思想口头表达而构建的。它包含了概念共现引用五元组,用于识别和处理概念,类似于构建概念共现图。通过启发式规则过滤冗余和噪声句子,提高五元组的质量。
数据集版本
- 版本:V202306
- 更新时间:2023年中
数据集统计
| 学科 | 五元组数量 | 概念数量 | 概念对数量 | 总目标文本数 | 总$p_1$和$p_2$数 |
|---|---|---|---|---|---|
| Art | 7,510 | 2,671 | 5,845 | 2,770 | 7,060 |
| History | 5,287 | 2,198 | 4,654 | 2,348 | 5,764 |
| Philosophy | 45,752 | 4,773 | 25,935 | 16,896 | 29,942 |
| Sociology | 16,017 | 4,054 | 12,796 | 7,066 | 16,416 |
| Political Science | 67,975 | 6,105 | 42,411 | 26,198 | 53,933 |
| Business | 205,297 | 9,608 | 99,329 | 62,332 | 112,736 |
| Geography | 191,958 | 12,029 | 118,563 | 42,317 | 112,909 |
| Engineering | 506,635 | 16,992 | 249,935 | 137,164 | 273,894 |
| Geology | 365,183 | 13,795 | 190,002 | 98,991 | 222,358 |
| Medicine | 168,697 | 13,014 | 114,104 | 42,535 | 138,973 |
| Economics | 227,530 | 9,461 | 113,527 | 68,607 | 131,387 |
| Physics | 267,532 | 10,831 | 133,079 | 84,824 | 176,741 |
| Biology | 224,722 | 15,119 | 145,088 | 59,210 | 189,281 |
| Mathematics | 312,670 | 17,751 | 190,734 | 95,951 | 218,697 |
| Psychology | 476,342 | 9,512 | 194,038 | 115,725 | 212,180 |
| Computer Science | 531,654 | 16,591 | 244,567 | 151,809 | 238,091 |
| Environmental Science | 583,466 | 11,002 | 226,671 | 94,474 | 201,330 |
| Materials Science | 573,032 | 17,098 | 249,251 | 145,068 | 313,657 |
| Chemistry | 565,307 | 13,858 | 231,062 | 108,637 | 286,593 |
| Total | 5,342,566 | 206,462 | 2,591,591 | 1,362,922 | 2,941,942 |
数据集格式
每个文件是一个列表,格式为[[c_1, c_2, p, p_1, p_2], ...],其中每个元素是一个五元组。c_1和c_2表示概念,p表示目标文本,即口头表达的思想。
数据集下载
使用Git进行下载,需要安装Git-LFS。 bash sudo apt-get install git-lfs
OR
brew install git-lfs
git lfs install git clone https://huggingface.co/datasets/Reacubeth/Co-occurrenceCitationQuintuple



