GYAFC (Grammarly’s Yahoo Answers Formality Corpus)
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/GYAFC
下载链接
链接失效反馈官方服务:
资源简介:
语法的雅虎答案形式语料库 (GYAFC) 是任何风格的最大数据集,总共包含110K个非正式/正式句子对。
Yahoo Answers是一个问答论坛,包含大量非正式句子,并允许重新分配数据。作者使用Yahoo Answers L6语料库创建了非正式和正式句子对的GYAFC数据集。为了确保数据的均匀分布,他们删除了属于问题,包含url并且短于5个单词或长于25个单词的句子。在这些预处理步骤之后,4000万句子仍然存在。
雅虎答案语料库由几个不同的领域组成,如商业、娱乐和音乐、旅游、食品等。Pavlick和Tetreault形式分类器 (PT16) 显示,不同类型的形式水平差异很大。为了控制这种变化,作者使用两个包含最非正式句子的特定领域,并在这些类别中显示培训和测试的结果。作者使用PT16的形式分类器来识别非正式句子,并在PT16语料库的答案类型上训练该分类器,该语料库由来自Yahoo答案的近5,000个随机选择的句子组成,手动注释为-3 (非常非正式) 至3 (非常正式)。他们发现娱乐与音乐,家庭与关系领域包含最非正式的句子,并使用这些领域创建GYAFC数据集。
提供机构:
OpenDataLab
创建时间:
2022-11-02



