BASF-AI/PubChemWikiMSPC
收藏Hugging Face2024-12-05 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/BASF-AI/PubChemWikiMSPC
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: sent1
dtype: string
- name: sent2
dtype: string
- name: labels
dtype: int64
splits:
- name: test
num_bytes: 231217
num_examples: 192
download_size: 118436
dataset_size: 231217
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
license: cc-by-nc-sa-4.0
language:
- en
- ms
pretty_name: PubChem & Wikipedia English-Malay Paragraph Pair Classification
task_categories:
- text-classification
tags:
- chemistry
- pubchem
- wikipedia
- chemteb
size_categories:
- n<1K
---
# PubChem & Wikipedia English-Malay Paragraph Pair Classification
This dataset is a multilingual extension of the [PubChem & Wikipedia Paragraphs Pair Classification](https://huggingface.co/datasets/BASF-AI/PubChemWikiParagraphsPC) dataset. It includes pairs of paragraphs in English and Malay (sent1 and sent2) with a binary labels column indicating whether the paragraphs describe the same entity (1) or different entities (0).
数据集信息:
特征:
- 名称:sent1
数据类型:字符串
- 名称:sent2
数据类型:字符串
- 名称:labels
数据类型:64位整型
数据集划分:
- 名称:测试集
字节数:231217
样本数:192
下载大小:118436
数据集总大小:231217
配置:
- 配置名称:默认配置
数据文件:
- 划分:测试集
路径:data/test-*
许可证:知识共享署名-非商业性使用-相同方式共享4.0(CC BY-NC-SA 4.0)
语言:
- 英语
- 马来语
数据集显示名:PubChem与维基百科英-马来语段落对分类
任务类别:
- 文本分类
标签:
- 化学
- PubChem
- 维基百科(Wikipedia)
- chemteb
规模类别:
- 样本数少于1000
# PubChem与维基百科英-马来语段落对分类数据集
本数据集是[PubChem与维基百科段落对分类](https://huggingface.co/datasets/BASF-AI/PubChemWikiParagraphsPC)数据集的多语言扩展版本,包含英语与马来语的段落对(sent1与sent2),并附带一列二分类标签,用于指示两段落是否描述同一实体:标签为1时表示两段落描述同一实体,标签为0时表示描述不同实体。
提供机构:
BASF-AI



