five

BASF-AI/PubChemWikiCSPC

收藏
Hugging Face2024-12-05 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/BASF-AI/PubChemWikiCSPC
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: sent1 dtype: string - name: sent2 dtype: string - name: labels dtype: int64 splits: - name: test num_bytes: 557375 num_examples: 611 download_size: 298245 dataset_size: 557375 configs: - config_name: default data_files: - split: test path: data/test-* license: cc-by-nc-sa-4.0 language: - en - cs task_categories: - text-classification tags: - chemistry - chemteb - wikipedia - pubchem pretty_name: PubChem & Wikipedia English-Czech Paragraph Pair Classification size_categories: - n<1K --- # PubChem & Wikipedia English-Czech Paragraph Pair Classification This dataset is a multilingual extension of the [PubChem & Wikipedia Paragraphs Pair Classification](https://huggingface.co/datasets/BASF-AI/PubChemWikiParagraphsPC) dataset. It includes pairs of paragraphs in English and Czech (sent1 and sent2) with a binary labels column indicating whether the paragraphs describe the same entity (1) or different entities (0).

数据集信息: 特征: - 名称:sent1,数据类型:字符串 - 名称:sent2,数据类型:字符串 - 名称:labels,数据类型:64位整数 划分集: - 名称:测试集,字节数:557375字节,样本数量:611 下载大小:298245字节 数据集总大小:557375字节 配置: - 配置名称:默认配置,数据文件: - 划分集:测试集,路径:data/test-* 许可证:知识共享署名-非商业性使用-相同方式共享4.0国际许可协议(CC BY-NC-SA 4.0) 语言:英语、捷克语 任务类别:文本分类 标签:化学、chemteb、维基百科(Wikipedia)、PubChem 显示名称:PubChem与维基百科英捷段落对分类任务数据集 样本规模:小于1000条 --- # PubChem与维基百科英捷段落对分类任务数据集 本数据集为[PubChem与维基百科段落对分类数据集](https://huggingface.co/datasets/BASF-AI/PubChemWikiParagraphsPC)的多语言扩展版本。其包含英语与捷克语的段落对(sent1与sent2),并设有二分类标签列,用以标注两段是否描述同一实体(标签值为1时表示两段描述同一实体,标签值为0时表示两段描述不同实体)。
提供机构:
BASF-AI
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作