xinzhang/wikipedia_summary
收藏数据集描述
-
由谁策划: 张欣,来自北京航空航天大学(BUAA)。该数据集使用AI工具生成维基百科文章的摘要,旨在支持自然语言处理(NLP)研究和应用,特别是在语言处理方面。
-
资金支持: 该数据集的创建由北京航空航天大学内部支持,作为学术研究计划的一部分。
-
共享者: 张欣,来自北京航空航天大学计算机科学系。
-
语言(NLP): 英语
-
许可证: 该数据集以CC0“无权利保留”许可证分发,鼓励学术和商业使用,同时承认维基百科内容的原始来源。
数据集来源
-
存储库: 该数据集目前不公开,但可以申请用于学术或研究目的。
-
论文: 数据集生成过程和初始基准的详细信息在论文《AI-Generated Summaries of Chinese Wikipedia Articles: A New Dataset for NLP Research》中描述,张欣等,北京航空航天大学。
用途
-
直接用途: 适用于训练和评估文本摘要、语言理解和其他需要源内容压缩表示的NLP任务。
-
超出范围的用途: 该数据集不适用于识别或生成个性化内容,因为它不包含用户特定信息或偏好。
数据集结构
数据集由JSON文件组成,每个条目具有以下格式:
json { original: string, truncated_text: string with 2000 length, semantic_content: string }
数据集创建
- 策划理由: 该数据集是为了填补NLP研究中摘要文本可用性的空白而策划的。通过利用AI工具生成摘要,我们旨在提供一个有助于改进摘要算法和理解压缩中文文本的资源。
源数据
-
数据收集和处理: 摘要使用专有的基于AI的摘要工具生成。输入数据来自涵盖各种主题和领域的中国维基百科文章。
-
注释: 由于数据集是通过自动化过程生成的,没有人工干预,因此没有提供手动注释。
个人和敏感信息
由于数据集是从公开可用的维基百科文章生成的,仅包含事实摘要,因此不包括任何个人或敏感信息。
偏见、风险和限制
由于数据集源自维基百科,可能继承了文章中的偏见,包括但不限于文化、主题和语言偏见。用户在使用此数据集时应谨慎,并在使用此数据集训练模型时进行额外的偏见分析。
推荐
我们建议数据集的用户承认潜在的偏见,并评估使用此数据集训练的模型在各种指标上的表现,以确保公平性和鲁棒性。
引用
如果您在研究中使用此数据集,请引用以下论文: 张欣等(年份)。《AI-Generated Summaries of Chinese Wikipedia Articles: A New Dataset for NLP Research》。北京航空航天大学。
数据集卡作者
数据集卡由张欣和北京航空航天大学AI研究小组编写。
数据集卡联系
如需进一步咨询或访问请求,请联系张欣,邮箱:zxin0423@gmail.com。



