BASF-AI/PubChemWikiCSPC
收藏Hugging Face2024-12-05 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/BASF-AI/PubChemWikiCSPC
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: sent1
dtype: string
- name: sent2
dtype: string
- name: labels
dtype: int64
splits:
- name: test
num_bytes: 557375
num_examples: 611
download_size: 298245
dataset_size: 557375
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
license: cc-by-nc-sa-4.0
language:
- en
- cs
task_categories:
- text-classification
tags:
- chemistry
- chemteb
- wikipedia
- pubchem
pretty_name: PubChem & Wikipedia English-Czech Paragraph Pair Classification
size_categories:
- n<1K
---
# PubChem & Wikipedia English-Czech Paragraph Pair Classification
This dataset is a multilingual extension of the [PubChem & Wikipedia Paragraphs Pair Classification](https://huggingface.co/datasets/BASF-AI/PubChemWikiParagraphsPC) dataset. It includes pairs of paragraphs in English and Czech (sent1 and sent2) with a binary labels column indicating whether the paragraphs describe the same entity (1) or different entities (0).
数据集信息:
特征:
- 名称:sent1,数据类型:字符串
- 名称:sent2,数据类型:字符串
- 名称:labels,数据类型:64位整数
划分集:
- 名称:测试集,字节数:557375字节,样本数量:611
下载大小:298245字节
数据集总大小:557375字节
配置:
- 配置名称:默认配置,数据文件:
- 划分集:测试集,路径:data/test-*
许可证:知识共享署名-非商业性使用-相同方式共享4.0国际许可协议(CC BY-NC-SA 4.0)
语言:英语、捷克语
任务类别:文本分类
标签:化学、chemteb、维基百科(Wikipedia)、PubChem
显示名称:PubChem与维基百科英捷段落对分类任务数据集
样本规模:小于1000条
---
# PubChem与维基百科英捷段落对分类任务数据集
本数据集为[PubChem与维基百科段落对分类数据集](https://huggingface.co/datasets/BASF-AI/PubChemWikiParagraphsPC)的多语言扩展版本。其包含英语与捷克语的段落对(sent1与sent2),并设有二分类标签列,用以标注两段是否描述同一实体(标签值为1时表示两段描述同一实体,标签值为0时表示两段描述不同实体)。
提供机构:
BASF-AI



