five

rntc/biomed-fr-v3-enriched-softmin-leger

收藏
Hugging Face2025-10-06 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/rntc/biomed-fr-v3-enriched-softmin-leger
下载链接
链接失效反馈
官方服务:
资源简介:
biomed-fr-v3-enriched-softmin-leger数据集是对rntc/biomed-fr-v3-enriched数据集进行质量上采样后的版本,使用了soft-min瓶颈采样方法。该数据集保留了原始数据集的2941107个样本,并针对教育性评分、内容丰富性、术语精确性和写作质量四个维度进行了质量筛选。数据集的预处理包括soft-min计算、权重计算和重采样,确保了样本的质量和分布。此数据集适用于文本生成任务,特别是在医学和生物医学领域。

The biomed-fr-v3-enriched-softmin-leger dataset is a quality-upsampled version of the rntc/biomed-fr-v3-enriched dataset, utilizing soft-min bottleneck sampling. It retains the original datasets 2941107 samples and has been qualityfiltered based on educational score, content richness, terminology precision, and writing quality. The datasets preprocessing involves soft-min calculation, weight computation, and resampling, ensuring sample quality and distribution. This dataset is suitable for text generation tasks, especially in the medical and biomedical fields.
提供机构:
rntc
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作