five

BASF-AI/PubChemWikiMSPC

收藏
Hugging Face2024-12-05 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/BASF-AI/PubChemWikiMSPC
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: sent1 dtype: string - name: sent2 dtype: string - name: labels dtype: int64 splits: - name: test num_bytes: 231217 num_examples: 192 download_size: 118436 dataset_size: 231217 configs: - config_name: default data_files: - split: test path: data/test-* license: cc-by-nc-sa-4.0 language: - en - ms pretty_name: PubChem & Wikipedia English-Malay Paragraph Pair Classification task_categories: - text-classification tags: - chemistry - pubchem - wikipedia - chemteb size_categories: - n<1K --- # PubChem & Wikipedia English-Malay Paragraph Pair Classification This dataset is a multilingual extension of the [PubChem & Wikipedia Paragraphs Pair Classification](https://huggingface.co/datasets/BASF-AI/PubChemWikiParagraphsPC) dataset. It includes pairs of paragraphs in English and Malay (sent1 and sent2) with a binary labels column indicating whether the paragraphs describe the same entity (1) or different entities (0).

数据集信息: 特征: - 名称:sent1 数据类型:字符串 - 名称:sent2 数据类型:字符串 - 名称:labels 数据类型:64位整型 数据集划分: - 名称:测试集 字节数:231217 样本数:192 下载大小:118436 数据集总大小:231217 配置: - 配置名称:默认配置 数据文件: - 划分:测试集 路径:data/test-* 许可证:知识共享署名-非商业性使用-相同方式共享4.0(CC BY-NC-SA 4.0) 语言: - 英语 - 马来语 数据集显示名:PubChem与维基百科英-马来语段落对分类 任务类别: - 文本分类 标签: - 化学 - PubChem - 维基百科(Wikipedia) - chemteb 规模类别: - 样本数少于1000 # PubChem与维基百科英-马来语段落对分类数据集 本数据集是[PubChem与维基百科段落对分类](https://huggingface.co/datasets/BASF-AI/PubChemWikiParagraphsPC)数据集的多语言扩展版本,包含英语与马来语的段落对(sent1与sent2),并附带一列二分类标签,用于指示两段落是否描述同一实体:标签为1时表示两段落描述同一实体,标签为0时表示描述不同实体。
提供机构:
BASF-AI
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作