Anon126/my-raft-submission
收藏RAFT 提交数据集
提交规则
- 每周仅评估一次提交,以防止过度拟合公共排行榜。
- 允许使用其他数据集进行迁移学习或元学习,包括在其他语料库上进一步预训练。
- 允许使用未标记的测试数据,例如,使用任务的未标记数据进行进一步预训练是允许的。
- 允许系统通过自动网络搜索等方式增强信息。
提交文件格式
对于RAFT中的每个任务,应创建一个名为predictions.csv的CSV文件,包含模型在未标记测试集上的预测。每个文件应包含以下两列:
- ID(整数)
- Label(字符串)
示例代码如下:
python from pathlib import Path import pandas as pd from collections import Counter from datasets import load_dataset, get_dataset_config_names
tasks = get_dataset_config_names("ought/raft")
for task in tasks: # 加载数据集 raft_subset = load_dataset("ought/raft", task) # 计算训练集上的多数类 counter = Counter(raft_subset["train"]["Label"]) majority_class = counter.most_common(1)[0][0] # 加载预测文件 preds = pd.read_csv(f"data/{task}/predictions.csv") # 将标签ID转换为标签名称 preds["Label"] = raft_subset["train"].features["Label"].int2str(majority_class) # 保存预测 preds.to_csv(f"data/{task}/predictions.csv", index=False)
每个predictions.csv文件应存储在任务的子文件夹中,最终结构如下:
data ├── ade_corpus_v2 │ ├── predictions.csv │ └── task.json ├── banking_77 │ ├── predictions.csv │ └── task.json ├── neurips_impact_statement_risks │ ├── predictions.csv │ └── task.json ├── one_stop_english │ ├── predictions.csv │ └── task.json ├── overruling │ ├── predictions.csv │ └── task.json ├── semiconductor_org_types │ ├── predictions.csv │ └── task.json ├── systematic_review_inclusion │ ├── predictions.csv │ └── task.json ├── tai_safety_research │ ├── predictions.csv │ └── task.json ├── terms_of_service │ ├── predictions.csv │ └── task.json ├── tweet_eval_hate │ ├── predictions.csv │ └── task.json └── twitter_complaints ├── predictions.csv └── task.json
验证提交
运行以下命令验证提交文件格式是否正确:
python cli.py validate
如果格式正确,将显示以下消息:
All submission files validated! ✨ 🚀 ✨ Now you can make a submission 🤗
提交到Hugging Face Hub
最后一步是提交文件到Hub:
python cli.py submit
如果没有错误,将显示以下消息:
Submission successful! 🎉 🥳 🎉 Your submission will be evaluated on Sunday 05 September 2021 ⏳
评估将在每周日进行,结果将在排行榜上可见。



