five

Training diagnostic competencies (TRACE)

收藏
PsychArchives2026-01-06 更新2026-04-25 收录
下载链接:
https://hdl.handle.net/20.500.12034/16938
下载链接
链接失效反馈
官方服务:
资源简介:
The TrACE project investigated how reliably teachers evaluate English essays written by up-per-secondary students and how this accuracy can be strengthened through training and au-tomated support. Using several thousand authentic argumentative essays from the Swiss MEWS project, TrACE first established a robust human rating framework focusing on three central dimensions of writing quality: language, structure, and content. These analyses showed that the dimensions are clearly distinguishable, enabling targeted feedback to learn-ers. They also revealed how student writing develops over time: while text structure improved most noticeably over the school year, gains in content were moderate and progress in lan-guage quality remained comparatively slow, with vocabulary emerging as a particular challenge. Building on these human ratings, the project developed automated essay scoring models that combine interpretable linguistic features with modern language-processing methods. These models successfully mirrored human judgments and offered transparent insights into why a text was scored in a particular way. Because they provide concrete, pedagogically meaningful information, they hold promise for formative classroom assessment as well as for future appli-cations in teacher education. Complementary analyses further showed that specific linguistic profiles can differentiate proficiency levels across writing tasks, underlining the potential of automated tools to support consistent, criterion-based assessment. The central focus of the project was the question of what explains the accuracy of teachers' judgments. By comparing thousands of assessments by teacher training students and teach-ers with human and automated machine reference values, it became clear that the quality of judgment varies greatly and is influenced by several factors. Experienced teachers evaluated the texts more critically and thus less accurately than teacher training students, while more careful reading and comparing several texts increased accuracy. Two pre-registered experi-ments investigated whether simple aids can improve the quality of judgment. Highlighting spelling mistakes increased accuracy in this area without bias, while highlighting argumenta-tive structures did not improve analytical accuracy but led to more precise overall assess-ments and reduced a recurring halo effect. In addition, the project developed a novel calcula-tion model that allows three previously independent components of judgment accuracy to be estimated simultaneously. This model is likely to be used frequently in related research. Das Projekt TrACE untersuchte, wie zuverlässig Lehrkräfte englische Schüleraufsätze der Oberstufe bewerten und wie sich diese Bewertungsgenauigkeit durch Training und automatisierte Unterstützung verbessern lässt. Ausgangspunkt waren mehrere tausend authentische argumentative Texte aus dem Deutsch-Schweizer MEWS-Projekt, für die zunächst ein belastbares System menschlicher Bewertungen entwickelt wurde. Die drei zentralen Qualitätsdimensionen – Sprache, Struktur und Inhalt – erwiesen sich als klar voneinander unterscheidbar, was gezieltes, kriterienbezogenes Feedback ermöglicht. Die Längsschnittanalysen zeigten außerdem deutliche Entwicklungsunterschiede: Während sich die Textstruktur im Laufe eines Schuljahres am stärksten verbesserte, war der Fortschritt im Inhalt moderat und bei der sprachlichen Qualität eher gering. Besonders der Wortschatz stellte sich als zentrale Herausforderung im Englischunterricht der Sekundarstufe II heraus. Auf dieser Grundlage entwickelte TrACE automatisierte Bewertungsverfahren, die interpretierbare linguistische Merkmale mit modernen Methoden der automatisierten Sprachverarbeitung kombinieren. Die Modelle konnten menschliche Urteile zuverlässig abbilden und lieferten transparente Hinweise darauf, warum ein Text eine bestimmte Bewertung erhielt. Dadurch eröffnen sie neue Möglichkeiten für formatives Feedback im Unterricht und für kriteriengeleitete Anwendungen in der Lehrkräftebildung. Ergänzende Analysen zeigten zudem, dass bestimmte sprachliche Profilmerkmale Kompetenzniveaus über verschiedene Schreibaufgaben hinweg klar unterscheiden können. Im Mittelpunkt des Projekts stand die Frage, wodurch sich die Genauigkeit der Urteile von Lehrkräften erklärt. Durch den Vergleich Tausender Bewertungen von Lehramtsstudierenden und Lehrkräften mit menschlichen und automatisierten Referenzwerten wurde deutlich, dass die Qualität der Urteile stark variiert und von mehreren Faktoren beeinflusst wird. Erfahrene Lehrkräfte bewerteten die Texte kritischer und damit weniger genau als Lehramtsstudierende, während sorgfältigeres Lesen und der Vergleich mehrerer Texte die Genauigkeit erhöhten. In zwei vorab registrierten Experimenten wurde untersucht, ob einfache Hilfsmittel die Qualität der Beurteilung verbessern können. Das Hervorheben von Rechtschreibfehlern erhöhte die Genauigkeit in diesem Bereich, während das Hervorheben von Argumentationsstrukturen die analytische Genauigkeit nicht verbesserte, aber zu präziseren Gesamtbewertungen führte und einen wiederkehrenden Halo-Effekt reduzierte. Vor allem wurde im Rahmen des Projekts ein neuartiges Berechnungsmodell entwickelt, mit dem drei bisher unabhängig berechnete Komponenten der Bewertungsgenauigkeit gleichzeitig geschätzt werden können. Dieses Modell wird wahrscheinlich häufig in der verwandten Forschung eingesetzt werden. Um einen nachhaltigen Transfer zu ermöglichen, entwickelte TrACE ein offenes, benchmark-basiertes Online-Trainingstool, das Lehrkräften das Üben mit authentischen Texten, den Ver-gleich mit Expertenurteilen und gezielte Rückmeldungen ermöglicht. Dieses Werkzeug unterstützt langfristige Kalibrierung und wird Ende 2025 öffentlich verfügbar sein. Trotz Herausforderungen – etwa bei der Bewertung sehr feingranularer Schreibmerkmale oder pandemiebedingter Verzögerungen – konnte TrACE entscheidende Fortschritte in der menschlichen und automatisierten Schreibbewertung erzielen. Das Projekt liefert neue Erkenntnisse darüber, wie sich Schreibkompetenzen entwickeln, wie Lehrkräfte Texte beurteilen und wie Technologie und Training zu faireren, transparenteren und verlässlicheren Bewertungspraktiken im Fremdsprachenunterricht beitragen können. unknown
提供机构:
PsychArchives
创建时间:
2026-01-06
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作