M-Phasis
收藏数据集概述
数据集名称
M-Phasis
数据集来源
LREC 2022出版物 "Placing M-Phasis on the Plurality of Hate: A Feature-Based Corpus of Hate Online"
数据集结构
- annotations: 包含原始数据和注释。
- model_outputs: 包含论文中介绍的模型的各种测试集预测。
- train_dev_test_splits: 包含实验部分使用的训练、开发和测试分割。
- annotation_protocol.pdf: 包含用于注释数据集的注释协议。
数据集内容
-
German (de) and French datasets: 位于
{de,fr}.data.csv中,包含以下列:- id
- content
- user_id
- article_id
- direct_parent_id
- internal_id
- outlet
- outlet2
- type
- type2
- length
- words
-
Annotations: 位于
{de,fr}.annotations.{articles,comments}.csv中,包含以下列:- id
- annotator
- 其他列的详细解释请参考注释协议。
模型输出
每个模型输出文件包含每行一个测试实例。每个测试实例提供10次随机种子运行的模型输出,以空格分隔。
训练-开发-测试分割
分割格式如下:
- id
- content
- e1-a3c: 实例的相应子任务标签。99表示该实例不应用于子任务。
许可证要求
- 需要归属(见bibtex)
- 不允许商业使用
- 不允许通过除Github仓库以外的任何方式与他人共享上传的材料或其衍生品
引用信息
若使用此数据集,请引用以下出版物:
@InProceedings{ruiter_reiners:2022:LREC, author = {Ruiter, Dana and Reiners, Liane and Geet DSa, Ashwin and Kleinbauer, Thomas and Fohr, Dominique and Illina, Irina and Klakow, Dietrich and Schemer, Christian and Monnier, Angeliki}, title = {Placing M-Phasis on the Plurality of Hate: A Feature-Based Corpus of Hate Online}, booktitle = {Proceedings of The 14th Language Resources and Evaluation Conference}, month = {June}, year = {2022}, address = {Marseille, France}, publisher = {European Language Resources Association} }




