five

BusiReden

收藏
DataCite Commons2026-02-10 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/korpora/v1
下载链接
链接失效反馈
官方服务:
资源简介:
Le corpus BusiReden contient le script de 20 discours prononcés par les dirigeant|e|s de 15 entreprises entre 1978 et 1999. Il est une version aménagée du corpus BusiOld (House, 2011) provenant de l'archive HZSK repository de l'université de Hambourg (Allemagne), accessible via CLARIN Service Provider Federation. Les textes fournis par Juliane House ont été rassemblés dans un seul fichier XML et structurés à l'aide d'une balise renseignant sur le nom de l'entreprise à laquelle est attribué le discours : lt; company name="Henkel"gt;. Cet ajout permet d'analyser chaque discours de fin d'année séparément ou regroupé avec d'autres. Si l'on dispose de deux textes pour une même entreprise, la mention "text1", "text2" complète son nom : lt; company name="Allianz text1"gt;. Le fichier XML ainsi qu'un fichier CSV renseignant sur les métadonnées du fichier ont été implémentés dans TXM (Heiden et al., 2010). Lors de l'import, les formes ont été automatiquement annotées au niveau des classes de mots par le TreeTagger (Schmid 1994). Les erreurs constatées (par exemple celles concernant les noms communs à étiqueter comme noms propres) ont été rectifiées manuellement à l'aide de l'extension URS disponible sur TXM (Decorde et al., 2019).Références Decorde, M. et al. (2019) ‘Annotation URS (Unité-Relation-Schéma) version 1.0’. Edited by S. Heiden. Available at: https://www.lattice.cnrs.fr/democrat/files/txm-manual-urs-extension-v1.0.pdf. Heiden, S., Magué, J.-P. and Pincemin, B. (2010) ‘TXM : Une plateforme logicielle open-source pour la textométrie - conception et développement’, in Proceedings of 10th International Conference Journées d’Analyse statistique des Données Textuelles. 10th International Conference on the Statistical Analysis of Textual Data - JADT 2010, Edizioni Universitarie di Lettere Economia Diritto, pp. 1021–1032. Available at: https://halshs.archives-ouvertes.fr/halshs-00549779/document (Accessed: 30 November 2018). House, J. (2011) ‘Covert translation: Business Communication (new). Version 0.2.’ Available at: https://corpora.uni-hamburg.de/hzsk/en/islandora/object/text-corpus%3Actwirtalt-0.2 (Accessed: 20 December 2021). Schiller, A., Teufel, S. and Stockert, C. (1995) ‘Vorläufige Guidelines für das Tagging deutscher Textcorpora mit STTS’. Available at: https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/stts_guide.pdf.
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作