Direct Behavior Rating (DBR) als Methode zur ... · Direct Behavior Rating (DBR) als Methode zur...

24
75 Direct Behavior Rating (DBR) als Methode zur Verhaltensverlaufsdiagnostik Empirische Sonderpädagogik, 2015, Nr. 2, S. 75-98 ISSN 1869-4845 (Print) · ISSN 1869-4934 (Internet) Direct Behavior Rating (DBR) als Methode zur Verhaltensverlaufsdiagnostik in der Schule: Ein systematisches Review von Methodenstudien Christian Huber 1 & Christian Rietz 2 1 Universität Potsdam 2 Universität zu Köln Zusammenfassung Die Messung von Verhaltensentwicklungen in der Schule ist eine große methodische Heraus- forderung. Der vorliegende Beitrag stellt zunächst das Direct Behavior Rating (DBR) als einen möglichen Ansatzpunkt zur Verhaltensverlaufsdiagnostik in der Schule vor. Auf dieser Grundla- ge werden die Ergebnisse eines systematischen Reviews zu empirischen Forschungsarbeit über diese Methodik skizziert. Die Forschungsergebnisse werden in acht Schwerpunkten eingeord- net und jeweils diskutiert. Das Review zeigt insgesamt moderate bis gute Befunde für Kriteri- ums-Validität und Interrater-Reliabilität von DBR-Skalen. Die Arbeiten zeigen überdies, dass die Beobachtungsgüte in einen akzeptablen Bereich steigt, wenn jeweils mindestens fünf Messda- ten zu einem Wert zusammengefasst werden und das Beobachtungsziel möglichst global for- muliert wird. Ferner zeigen verschiedene Studien, dass die Beobachtungsgüte je nach beobach- tetem Verhalten schwankt. Die Ergebnisse des Reviews werden zusammenfassend diskutiert. Schlagwörter: Verhaltensdiagnostik, Verhaltensbeobachtung, Verlaufsdiagnostik, Prozessdiag- nostik, Direct Behavior Rating Developmental behavior assessment in school by using Direct Behavior Rating (DBR): a review Abstract The developmental assessment of behavior problems in school is an important but challenging task for psychologists, teachers and other experts. The current paper (first) gives a short summa- ry of conventional methods of behavior assessment. Second the Method of Direct Behavior Rat- ing (DBR) as an alternative method of developmental behaviour assessment is introduced. Based on this, a review of empirical works with focus on the test quality of DBR is given. 17 studies are discussed. Results of the reviewed studies suggest a moderate to good criterion-related va- lidity and interrater reliability. Further the studies found that test-quality could be improved, when a set of five DBR-measurements are resumed and the target behavior is defined in a more global way. Further, findings suggest that test quality is varying with the target behavior. The re- sults of all studies are summarized and their relevance for the developmental assessment of be- havior in daily school life is discussed. Keywords: behavior assessment, developmental diagnostics, direct behavior rating

Transcript of Direct Behavior Rating (DBR) als Methode zur ... · Direct Behavior Rating (DBR) als Methode zur...

75Direct Behavior Rating (DBR) als Methode zur Verhaltensverlaufsdiagnostik

Empirische Sonderpädagogik, 2015, Nr. 2, S. 75-98ISSN 1869-4845 (Print) · ISSN 1869-4934 (Internet)

Direct Behavior Rating (DBR) als Methode zur

Verhaltensverlaufsdiagnostik in der Schule: Ein

systematisches Review von Methodenstudien

Christian Huber1 & Christian Rietz2

1 Universität Potsdam2 Universität zu Köln

ZusammenfassungDie Messung von Verhaltensentwicklungen in der Schule ist eine große methodische Heraus-forderung. Der vorliegende Beitrag stellt zunächst das Direct Behavior Rating (DBR) als einenmöglichen Ansatzpunkt zur Verhaltensverlaufsdiagnostik in der Schule vor. Auf dieser Grundla-ge werden die Ergebnisse eines systematischen Reviews zu empirischen Forschungsarbeit überdiese Methodik skizziert. Die Forschungsergebnisse werden in acht Schwerpunkten eingeord-net und jeweils diskutiert. Das Review zeigt insgesamt moderate bis gute Befunde für Kriteri-ums-Validität und Interrater-Reliabilität von DBR-Skalen. Die Arbeiten zeigen überdies, dass dieBeobachtungsgüte in einen akzeptablen Bereich steigt, wenn jeweils mindestens fünf Messda-ten zu einem Wert zusammengefasst werden und das Beobachtungsziel möglichst global for-muliert wird. Ferner zeigen verschiedene Studien, dass die Beobachtungsgüte je nach beobach-tetem Verhalten schwankt. Die Ergebnisse des Reviews werden zusammenfassend diskutiert.

Schlagwörter: Verhaltensdiagnostik, Verhaltensbeobachtung, Verlaufsdiagnostik, Prozessdiag-nostik, Direct Behavior Rating

Developmental behavior assessment in school by using Direct Behavior

Rating (DBR): a review

AbstractThe developmental assessment of behavior problems in school is an important but challengingtask for psychologists, teachers and other experts. The current paper (first) gives a short summa-ry of conventional methods of behavior assessment. Second the Method of Direct Behavior Rat-ing (DBR) as an alternative method of developmental behaviour assessment is introduced. Basedon this, a review of empirical works with focus on the test quality of DBR is given. 17 studiesare discussed. Results of the reviewed studies suggest a moderate to good criterion-related va-lidity and interrater reliability. Further the studies found that test-quality could be improved,when a set of five DBR-measurements are resumed and the target behavior is defined in a moreglobal way. Further, findings suggest that test quality is varying with the target behavior. The re-sults of all studies are summarized and their relevance for the developmental assessment of be-havior in daily school life is discussed.

Keywords: behavior assessment, developmental diagnostics, direct behavior rating

76 Christian Huber& Christian Rietz

Die Umsetzung der UN-Behindertenrechts-konvention und der damit verbundene „in-klusive Wandel“ erfordern neue Ansätzezur Förderung und Diagnostik in der Schu-le. So zeichnen sich viele Länder, derenSchulsysteme im Hinblick auf den inklusi-ven Wandel bereits weiter fortgeschrittensind als Deutschland, nicht nur durch denAbbau von separativen Schulstrukturen aus,sondern eben auch durch den Aufbau vongestuften Fördersystemen, in denen die In-dividualisierung der Förderung durch Lern-oder Entwicklungsverlaufsdiagnostik unter-stützt wird. Beispiele für solche Strukturensind das finnische „part time special educa-tion system“ (Kivirauma & Ruoho, 2007),das US-amerikanische „response-to-inter-vention-Modell“ (Fuchs & Fuchs, 1986)oder das „system-monitoring“ nach kanadi-schem Vorbild (Sliwka, 2010). Ziele dieserneueren und inklusionsorientierten Konzep-te sind die Prävention von Lern- und Ent-wicklungsproblemen und eine Individuali-sierung der Förderung.

Alle genannten Modelle eint eine verän-derte Sichtweise auf die pädagogische Dia-gnostik. Während in einem selektionspäda-gogischen Paradigma die „Etikettierung“von Schülerinnen und Schülern ein zentra-ler Auftrag der Diagnostik war, gerät in ei-nem inklusionspädagogischen Paradigmadie Evaluation von individuellen Unterstüt-zungsmaßnahmen in den Mittelpunkt derdiagnostischen Zielsetzung. Eine Evaluationindividueller Entwicklungsverläufe und derWirksamkeit von Fördermaßnahmen setztdiagnostische Verfahren voraus, die über ei-nen längeren Zeitraum zu vielen Messzeit-punkten Verhaltensdaten erheben und ana-lysieren (Grosche & Huber, in Druck).

Verlaufsdiagnostik

Im Folgenden wird das Spektrum vorhande-ner Verfahren der Verlaufsdiagnostik voncurriculumsbasierten Messungen bis zurVerhaltensbeobachtung und –bewertungskizziert. Abschließend wird mit dem Di-

rect Behavior Rating (im Folgenden DBR)bzw. der direkten Verhaltensbeurteilung(Chafouleas, Riley-Tillman & Christ, 2009;Steege, Davin & Hathaway, 2001) ein alter-nativer Ansatz zur Verhaltensverlaufsdiag-nostik vorgestellt, der auch im Mittelpunktder vorliegenden Arbeit steht.

Diagnostik kognitiver Eigenschaften:Curriculumsbasierte Messungen

Instrumente zur kontinuierlichen Leistungs-messung werden als curriculumsbasierteMessinstrumente („curriculum-based measu-rements“, CBM) bezeichnet (Deno & Fal,2003). Dabei handelt es sich in der Regelum kurze Tests (Durchführungszeit zwi-schen 1 und 3 Minuten), die meist auf einenbestimmten (kleinen) Teil des Lernverlaufsbezogen sind (Klauer, 2006). Aufgrund ihrerCharakteristika als Verfahren zur Verlaufsdi-agnostik bestehen CBM-Instrumente aus ei-ner Vielzahl vergleichbarer „Paralleltest“(z.B. 20 oder 50) mit vergleichbaren Testgü-tekriterien (Hosp, Hosp & Howell, 2007;Klauer, 2006; Strathmann & Klauer, 2010).Insofern kann man davon ausgehen, dasssich bei Verwendung von CBM in Bezug aufdie Testgütekriterien Objektivität, Reliabili-tät und Validität keine konzeptuell nennens-werten Unterschiede zwischen den Testsi-tuationen ergeben. CBM können sowohl aufder Basis von Einzelfällen als auch auf derBasis von Aggregaten (z.B. Schulklassen) va-lide ausgewertet werden (zur Auswertung inEinzelfällen vgl. Wilbert, 2014).

Im englischen Sprachraum gibt es für na-hezu alle Fachbereiche schulischer Förde-rung zahlreiche CBMs. Auch im deutschenSprachraum erscheinen mittlerweile ersteInstrumente, die insbesondere die BereicheLesen (Diehl & Hartke, 2012; Walter, 2008)oder Mathematik (Müller & Hartmann, imDruck; Strathmann & Klauer, 2012) abde-cken. Lehrkräfte und Schulpsychologenkönnen mit den zur Verfügung stehendenVerfahren regelmäßig und ohne viel Auf-wand in kürzeren Abständen (z.B. alle 1-2Wochen) prüfen, ob die eingeleitete Unter-

77Direct Behavior Rating (DBR) als Methode zur Verhaltensverlaufsdiagnostik

stützung bzw. Förderung bei einem Kind„wirkt“ oder ob sie verändert werden muss(Huber & Grosche, 2012). Während sichdie Diskussion bislang vorwiegend auf ko-gnitive Variablen (z.B. Lesekompetenzen,Rechtschreibung, Rechenleistung) fokus-sierte, bleibt die Frage offen, wie Interven-tionen bei Verhaltensproblemen analog,engmaschig und ökonomisch evaluiert wer-den können.

Gängige Methoden derVerhaltensbeobachtung

Bislang wurden zur Diagnostik von Verhal-tensproblemen vor allem zwei grundsätzli-che Methoden eingesetzt: 1) die systemati-sche Verhaltensbeobachtung und 2) dieVerhaltensbeurteilung (Schmidt-Atzert,2012). Jedoch liegt das Hauptaugenmerkder Anwendung dieser Methoden in derPraxis vornehmlich auf der einmaligen Ein-schätzung von Verhaltensproblemen unddamit der Statusdiagnostik (Amelang &Schmidt-Atzert, 2006; Schmidt-Atzert,2012; Wittchen & Hoyer, 2011).

Betrachtet man diese Situation vor demHintergrund des inklusiven Wandels, fehlensomit prozessdiagnostische Instrumente fürdie größte zu integrierende Gruppe: Schüle-rinnen und Schülern mit Förderbedarf in ih-rer emotional-sozialen Entwicklung (Cha-fouleas, Riley-Tillman & Christ, 2009;Christ, Riley-Tillman & Chafouleas, 2009).Insbesondere für diese Kinder und Jugendli-chen ist es wichtig zu wissen, inwieweitaufwändige Unterstützungsmaßnahmen zueinem gewünschten Erfolg führen. Profitiertein Schüler oder eine Schülerin von einerUnterstützung nicht in der erhofften Weise,können (z.B. analog zur Förderung im Be-reich des Lesens oder der Mathematik) sodie eingesetzten personellen oder materiel-len Ressourcen weiter optimiert und an dieBedürfnisse der Schülerinnen und Schülerangepasst werden. Dieses Prinzip entsprichtdamit einem förderdiagnostischen Vorge-hen, wie es zum Beispiel von Kooij (2004)beschrieben wird.

Aufbauend auf einem kurzen Überblicküber die klassischen Ansätze zur Diagnostikvon Verhalten (direkte systematische Ver-haltensbeobachtung und Verhaltensbeurtei-lung) soll im Folgenden auf das im engli-schen Sprachraum seit mehreren Jahren dis-kutierte „Direct Behavior Rating“ (im Fol-genden DBR bzw. DBR-Rater) eingegangenwerden. Im Gegensatz zu den traditionellenMethoden der Verhaltensbeobachtung istDBR eher auf die Diagnose von Verhaltens-entwicklungen und somit weniger auf einestatusdiagnostische Zielsetzung ausgerich-tet.

Die direkte systematischeVerhaltensbeobachtung

Die direkte systematische Verhaltensbeob-achtung (engl. Systematic Direct Observati-on) kann als exakteste und differenziertesteForm der Verhaltensbeobachtung betrachtetwerden (Amelang & Schmidt-Atzert, 2006).Im Folgenden wird analog zum englischenFachbegriff die Abkürzung SDO (bzw.SDO-Rater) verwendet. Eine direkte syste-matische Verhaltensbeobachtung fokussiertin der Regel einen bestimmten Verhaltens-ausschnitt (z.B. Aggressivität) durch die Er-fassung mehrerer Zeit- oder Ereignisstich-proben, bei der zumeist Auftretenshäufig-keiten gezählt und somit quantifizierbar ge-macht werden (Hussy, Schreier & Echter-hoff, 2013). Die systematische Beobachtungerfordert dabei in der Regel eine genaueOperationalisierung des einzuschätzendenVerhaltens und somit eine intensive Schu-lung der Personen, die die Verhaltensbeob-achtung durchführen sollen. Schmidt-Atzert(2012) unterscheidet bei der systematischenVerhaltensbeobachtung Zeichensystemevon Kategoriensystemen. Bei Zeichensyste-men erfasst die beobachtende Person nureinzelne gezielte Verhaltensweisen, die füreine bestimmte Fragestellung relevant sind.Im Gegensatz dazu wird bei Kategoriensys-temen ein breiterer Bereich eines Verhal-tens erfasst und mehr oder weniger klarvoneinander abgegrenzten Kategorien zu-

78 Christian Huber& Christian Rietz

geordnet. Die beobachtende Person mussdabei der Beobachtungssituation direktoder indirekt beiwohnen. Das bedeutet, siemuss entweder selbst in der Situation (aktivoder passiv) anwesend sein oder das Ver-halten anhand eines Videomittschnitts be-werten (Amelang & Schmidt-Atzert, 2006;Schmidt-Atzert, 2012).

Die Verhaltensbeurteilung

Die Verhaltensbeurteilung ist im Gegensatzzur systematischen Verhaltensbeobachtungeine abstrahierende Methode, die den Beob-achter nach seiner Einschätzung im Hinblickauf ein zuvor definiertes Verhalten in einembestimmten Zeitraum befragt (Schmidt-At-zert, 2012). Diese Einschätzung wird in derRegel über mehrstufige Ratingskalen erfasst(Schmidt-Atzert, 2010b; Stemmler, 2010).Im Gegensatz zu einer systematischen Beob-achtung werden bei der Verhaltensbeurtei-lung keine konkreten Verhaltensweisen ge-zählt, sondern es wird auf die Erfahrungbzw. Wahrnehmung einer Person, die einerBeobachtungssituation beigewohnt hat, imNachhinein zurückgegriffen. Verhaltensbe-urteilungen können somit auch Tage undWochen nach dem Ende einer Beobach-tungssituation angewendet werden oder ei-ne Verhaltenseinschätzung über mehrerelängere Beobachtungszeiträume (z.B. meh-rere Unterrichtsstunden, Schulfächer oderWochen) zusammengefasst abfragen(Schmidt-Atzert, 2012; Ziegler & Bühner,2012). Christ, Riley-Tillman und Chafouleas(2009) unterscheiden in diesem Zusammen-hang die Einschätzung des Verhaltens durchdie beobachtende Person selbst von einerindirekten Erfassung des Verhaltens. BeiLetzterem wird die beobachtende Persondurch eine weitere Person (z.B. eine sonder-pädagogische Fachkraft oder einen Schul-psychologen) im Hinblick auf einen be-stimmten Verhaltensausschnitt im Rahmeneines Interviews befragt. Diese Form derVerhaltenserfassung kann wiederum struktu-riert anhand von spezifischen Leitfadeninter-views oder offen bzw. narrativ geführt wer-

den (Christ, Riley-Tillman & Chafouleas,2009; Fydrich, 2012). Immer wieder disku-tiert wird, ob Verhaltensbeurteilungen be-sonders anfällig für Urteilsfehler sind, da siesehr unterschiedliche Verhaltensausschnittemit einer stärkeren zeitlichen Verzögerungzusammenfassen (Schmidt-Atzert, 2010b).

Insgesamt ermöglichen direkte systema-tische Verhaltensbeobachtungen zwar ei-nerseits eine exaktere Erfassung des Verhal-tens, sie erfordern jedoch andererseits aucheinen wesentlichen höheren Einsatz vonZeit und eine umfassende Schulung der be-obachtenden Person. Verhaltensbeurteilun-gen sind ökonomischer in der Durchfüh-rung, sie sind jedoch mit einem deutlich hö-heren Risiko für Urteilsfehler behaftet.

Direct Behavior Rating (DBR)

Die Methode des Direct Behavior Ratings(Direkte Verhaltensbeurteilung) stellt eineKombination aus einer direkten systemati-schen Verhaltensbeobachtung und einerVerhaltensbeurteilung mit Hilfe einer Ra-tingskala dar (Chafouleas, 2011; Christ, Ri-ley-Tillman & Chafouleas, 2009), wobeidiese Ratingskala nominalskalierte, ordinal-skalierte oder intervall- bzw. verhältnisska-lierte Merkmale umfassen kann.

Erstmalig dargestellt wurde das Prinzipdes DBR von Steege et al. (2001) bzw. Cha-fouleas, Riley-Tillman und Sassu (2002). Ur-sprüngliches Ziel war die Verhaltensbeurtei-lung im Rahmen von Tagesbeurteilungslis-ten in der Schule (engl. daily behavior re-pord cards), die wiederum an Tokensyste-me und Verstärker-Programme gebundenwaren (Chafouleas et al., 2002; Christ, Ri-ley-Tillman & Chafouleas, 2009; Huber,2013). Direkte Verhaltensbeurteilung be-deutet zunächst, dass die Beurteilung einesVerhaltens immer in und/ oder direkt nachder Situation erfolgt, in der das Verhaltenbeobachtet werden sollte. Die Beobach-tungszeiträume können nach Christ, Riley-Tillman und Chafouleas (2009) zwischenwenigen Sekunden bis hin zu einem Tag an-dauern. Demnach unterliegt die „Direkt-

79Direct Behavior Rating (DBR) als Methode zur Verhaltensverlaufsdiagnostik

heit“ der Methode einem gewissen Interpre-tationsspielraum, der in der Praxis je nacherforderlicher Ökonomie und Auftretens-wahrscheinlichkeit des Verhaltens ange-passt werden kann.

Ziel einer direkten Verhaltensbeurtei-lung ist es, die Verzögerung zwischen demAuftreten eines Verhaltens und dessen Beur-teilung gegenüber einer klassischen Verhal-tensbeurteilung stark zu reduzieren und so-mit eine (vom Aufwand her ökonomische)Einschätzung mit einer hohen „situativenValidität“ verbinden zu können.

Direkte Verhaltensbeurteilungen orien-tieren sich in der Regel an Zeichensyste-men. Das bedeutet, dass ausschließlich einzuvor definiertes Zielverhalten bewertetwird und andere Verhaltensbereiche nichterfasst werden. Im Unterschied zu Zeichen-oder Kategoriensystemen erfolgt die Mes-sung dabei jedoch nicht durch explizitesZählen oder Ausmessen von Zielverhaltens-weisen innerhalb eines definierten Zeit-raums (z.B. Peter hat sich innerhalb von 10Minuten 4 Minuten am Unterricht beteiligt),sondern (wie bei einer Verhaltensbeurtei-lung) mit Hilfe einer Ratingskala (z.B. von 0

= geringe Ausprägung bis 10 = starke Aus-prägung) (Chafouleas, 2011; Christ, Riley-Tillman & Chafouleas, 2009).

Das besondere Kennzeichen der direk-ten Verhaltensbeurteilung betrifft ihre Ein-satzmöglichkeiten. Während systematischeVerhaltensbeobachtungen und Verhaltens-beurteilungen in erster Linie zur Statusdiag-nostik im Bereich Verhalten genutzt werdenund mit einem entsprechenden Aufwandverbunden sind, kann der primäre Einsatz-bereich einer direkten Verhaltensbeurtei-lung in der Prozess- oder Modifikationsdiag-nostik gesehen werden (Chafouleas, 2011;Christ, Riley-Tillman & Chafouleas, 2009;Riley-Tillman, Christ, Chafouleas, BoiceMallach & Briesch, 2011). Daher könnenDBR-Skalen in präventiven gestuften För-derprogrammen wie z.B. response-to-inter-vention (Huber & Grosche, 2012; Johnson,Fuchs & McKnight, 2006) einfach und effi-zient eingesetzt werden. DBR-Skalen eig-nen sich somit in besonderer Weise zur Eva-luation von Förderhypothesen und Interven-tionen.

Abbildung 1 nimmt eine Einordnung derdirekten systematischen Verhaltensbeob-

Abbildung 1: Einordnung der direkten Verhaltensbeurteilung

80 Christian Huber& Christian Rietz

achtung und der Verhaltensbeurteilung an-hand der Bereiche „Anfälligkeit für Interpre-tationsfehler“ und „zeitliche Verzögerungder Erfassung“ in Anlehnung an Christ, Ri-ley-Tillman und Chafouleas (2009) vor.

Im Folgenden sollen nun die bislangvorliegenden empirischen Befunde für dieTestgüte und die Verwendung von direktenVerhaltensbeurteilungen zusammengefasstwerden.

Systematisches Review

methodisch-empirischer Studien

zum DBR

Generell unterliegt die „Qualität“ von Ver-haltensbeobachtungen Einschränkungen,z.B. durch Wahrnehmungs- und Urteilsfeh-ler (Schmidt-Atzert, 2010a, Schmidt-Atzert,2012; Westhoff et al., 2010). Unabhängigvon diesen grundsätzlichen Einschränkun-gen gibt es eine intensive Diskussion darü-ber, inwieweit die klassischen Testgütekrite-rien (wie z.B. Objektivität, Reliabilität undValidität) auf den Bereich der Verhaltensbe-obachtung übertragbar sind. Während eini-ge Autoren argumentieren, dass die Gütevon Verhaltensbeobachtungen nicht durchdie klassischen Testgütekriterien der Psy-chometrie abgebildet werden kann (z.B.Nelson, Hay & Hay, 1977), diskutiert Cone(1988), dass es allenfalls konzeptuelle, aberkeine methodischen Unterschiede zwi-schen Verhaltensbeobachtungen und psy-chometrischen Tests gäbe und somit Objek-tivität, Reliabilität und Validität einer Ver-haltensbeobachtung relevante Hauptgüte-kriterien zur Bestimmung ihrer Eignungsind. Diese „Übertragbarkeit“ leitet z.B. Co-ne (1988) aus den Annahmen ab, dass Ver-haltensbeobachtungen a) möglichst genaumit dem tatsächlich gezeigten „wahren“Verhalten übereinstimmen sollten, b) einePerson das gleiche Verhalten zu zwei Zeit-punkten auch gleich beurteilt und c) dassdas gleiche Verhalten in unterschiedlichenSettings stabil bewertet wird. Amelang undSchmidt-Atzert (2006) weisen darauf hin,

dass die – wie auch immer zu definierende– Güte einer Verhaltensbeobachtung in je-der Untersuchung neu bewertet werdenmüsse, da sich Beobachtungsgegenstand,Beobachtungssituation und beobachtendePersonen fortlaufend ändern.

Bortz und Döring (2006) gehen bei derDiskussion der Güte von Verhaltensbeob-achtungen pragmatisch dazu über, geeigne-te Maße zur Bestimmung der Beobachter-übereinstimmung (Intrarater-Reliabilität undInterrater-Reliabilität) zu diskutieren. Demvoraus geht die bisher noch nicht hinrei-chend diskutierte Frage, inwieweit bei ei-nem Instrument der Verhaltensverlaufsdiag-nostik eine intersubjektive Übereinstim-mung mit einer Norm oder einem Kriteriumgewährleistet werden muss, wenn nur dieEntwicklung des Verhaltens über die Zeitabgebildet werden soll. So wäre es bei ei-nem Kind, dass häufig den Unterricht stört,unerheblich, ob störende Verhalten nochals normal, überdurchschnittlich oder starküberdurchschnittlich bewertet werdenkann, wenn sich die verantwortlichen Ak-teure (z.B. Lehrkräfte, Eltern, Kind, Schul-psychologen, etc.) einig sind, dass eine Ab-nahme der Störungen im Unterricht hilf-reich wäre. Weiterhin stellt sich die Fragenach dem Stellenwert der Interrater-Reliabi-lität, wenn davon ausgegangen wird, dassdie Ratings immer konstant von der glei-chen Person oder sogar dialogisch zwi-schen den gleichen zwei Akteuren (z.B.Lehrkraft und Kind) vorgenommen werden.Generell ist festzuhalten, dass die messtheo-retische Fundierung für die Methode DBRbislang nicht hinreichend diskutiert wurde,sodass die klassischen Konzepte der Test-theorie vorerst nur unter Vorbehalten ver-wendet werden sollten.

Im Folgenden werden die zentralen em-pirischen Arbeiten zum DBR hinsichtlichder Gütekriterien Validität und Reliabilitätim Rahmen eines systematischen Reviewsanalysiert und diskutiert. Bei einem syste-matischen Review handelt es sich um eineine Technik der Sekundärforschung, die ei-ner klassischen Metaanalyse dahingehend

81Direct Behavior Rating (DBR) als Methode zur Verhaltensverlaufsdiagnostik

ähnelt, dass verschiedene Studien systema-tisch vergleichend betrachtet werden. ImGegensatz zur Metaanalyse wird in Bezugauf die Zielvariable („die Güte von DBR“)keine vergleichende Metrik gewählt, dadies (wie sich noch zeigen wird) in Anbe-tracht der vielfältigen Fragestellungen, He-rangehensweisen und Auswertungsmetho-den nicht möglich ist. Der Vergleich derverschiedenen Studien und die Identifikati-on von Wirkgrößen werden also nicht statis-tisch, sondern auf hermeneutisch-qualitati-ver Ebene vorgenommen. Dieser Ansatz er-laubt die Berücksichtigung der zahlreichenqualitativen wie methodischen Unterschie-de zwischen den verschiedenen Studien(vgl. zum systematischen Review und zurAbgrenzung zur Metaanalyse auch Bortzund Döring (2006)). Abschließend werdenaus den Ergebnissen des systematischen Re-views allgemeine Ableitungen zur Validitätund Reliabilität von DBR-Skalen vorgenom-men.

Auswahl der Studien

Zur Recherche der in dieses Review einflie-ßenden Studien sind insgesamt vier interna-tionale Datenbanken (Psyndex, PsychArti-cles, Psychinfo und ERIC) unter dem Stich-wort „direct behavior rating“ und „behavio-ral recording“ durchsucht worden. Zudemwurde die deutschsprachige Datenbank FIS-Bildung mit Hilfe der direkten Übersetzung(direkte Verhaltensbeurteilung) durchsucht.Aufgenommen in die folgende Diskussionwurden ausschließlich deutsch- oder eng-lischsprachige Studien, die in Journalen mitPeer-Review-Verfahren erschienen sind undsich mit der Verhaltensbeurteilung im päda-gogisch-psychologischen Kontext befassten.So wurden zum Beispiel alle Studien, dieInstrumente zur Verhaltensanalyse im Rah-men von Tierversuchen evaluierten, nichtin die vorliegende Arbeit aufgenommen.

Insgesamt ergaben die Recherchen zum„direct behavior rating“ 25 und zum „beha-vioral recording“ 24 Treffer. Darunter wareninsgesamt 19 empirische Studien zur Verhal-

tensdiagnostik und drei Review-Artikel zufinden. Zwei Arbeiten waren in spanischerund italienischer Sprache und wurden dahernicht aufgenommen. Fünf Arbeiten habensich eher mit konzeptionellen Fragen derImplementation von DBR in ein gestuftespräventives Förderkonzept (wie z.B. respon-se-to-intervention) befasst. Die im Rahmendieser Übersichtsarbeit eingeflossenen 17Studien sind in Tabelle 1 chronologisch undmit einem Hinweis zu ihrer inhaltlichenSchwerpunktsetzung aufgeführt.

Im Folgenden werden die Ergebnissedieser Studien zusammengefasst und vordem Hintergrund der praktischen Anwen-dung in der Verlaufsdiagnostik diskutiert.Mit Ausnahme einer Studie untersuchten al-le recherchierten Arbeiten die Beobach-tungsgüte von Single-Item-Scales (SIS). Beidiesem Skalenformat wird jeweils nur eineinziges Item wiederholt beurteilt. Dahersind alle hier skizzierten Befunde in ersterLinie für diesen Skalentyp gültig. Nur eineStudie (Volpe & Briesch, 2012) hat SIS undMulti-Items-Scales (MIS) im Hinblick auf dieBeobachtungsgüte miteinander verglichen.

Bewertung der Beobachtungsgüte inden recherchierten Studien

Die Beobachtungsgüte wurde in den re-cherchierten Studien an drei Kriterien fest-gemacht:

Erstens die Übereinstimmung mit einem„wahren“ Verhaltenswert. Dieses Kriteriumdiente vornehmlich der Prüfung der Validi-tät. Dabei wurde jeweils geprüft, inwieweitdie DBR-Messungen mit einem vermeintlichbesseren Indikator für das Verhalten der Kin-der übereinstimmen. Zwei Studien (Kilgus,Chafouleas, Riley-Tillman & Welsh, 2012;Kilgus, Riley-Tillman, Chafouleas, Christ &Welsh, 2014) setzten als Indikator für das„wahre Verhalten“ ein standardisiertes Ver-fahren zur Verhaltensbeurteilung ein. In achtStudien wurde der „wahre Verhaltenswert“über eine direkte systematische Verhaltens-beobachtung durch zwei professionelle undgeschulte Rater operationalisiert (Chafoule-

82 Christian Huber& Christian Rietz

Nr.

Aut

oren

Tite

lJa

hrSc

hwer

punk

t

1St

eege

, Dav

in &

Hat

haw

ayRe

liabi

lity

and

Acc

urac

y of

a P

erfo

rman

ce-B

ased

Beh

avio

ral R

ecor

ding

Pro

cedu

re.

2001

1

2C

hafo

ulea

s, C

hris

t, Ri

ley-

Tillm

an, B

riesc

h&

Cha

nese

Gen

eral

izab

ility

and

Dep

enda

bilty

of D

irect

Beh

avio

r Ra

ting

to A

sses

s So

cial

Beh

avio

r of

Pre

-sc

hool

ers

2007

1

3Ri

ley-

Tillm

an, C

hafo

ulea

s, S

assu

, Cha

nese

& G

laze

rEx

amin

ing

the

Agr

eem

ent o

f Dire

ct B

ehav

ior

Ratin

g an

d Sy

stem

atic

Dire

ct O

bser

vatio

n D

ata

for

On-

Task

and

Dis

rupt

ive

Beha

vior

2008

4

4Sc

hlie

ntz,

Rile

y-Ti

llman

, Brie

sch,

Wal

cott

& C

hafo

ulea

sTh

e Im

pact

of T

rain

ing

on th

e A

ccur

acy

of D

irect

Beh

avio

r Ra

tings

(DBR

)20

099

5C

hafo

ulea

s, C

hris

t & R

iley-

Tillm

anG

ener

aliz

abili

ty o

f Sca

ling

Gra

dien

ts o

n D

irect

Beh

avio

r Ra

tings

2009

1, 2

6Ri

ley-

Tillm

an, C

hafo

ulea

s, C

hris

t, Br

iesc

h&

LeB

elTh

e Im

pact

of I

tem

Wor

ding

and

Beh

avio

ral S

peci

ficity

on

the

Acc

urac

y of

Dire

ct B

ehav

ior

Ra-

ting

(DBR

s)20

094,

5, 6

7Br

iesc

h, C

hafo

ulea

s &

Rile

y-Ti

llman

Gen

eral

izab

ility

and

Dep

enda

bilit

y of

Beh

avio

r A

sses

smen

t Met

hods

to E

stim

ate

Aca

dem

ic E

nga-

gem

ent:

A C

ompa

rison

of S

yste

mat

ic D

irect

Obs

erva

tion

and

Dire

ct B

ehav

ior

Ratin

g20

101,

7

8Le

Bel,

Kilg

us, B

riesc

h &

Cha

foul

eas

The

Impa

ct o

f Tra

inin

g on

the

Acc

uray

of T

each

er-C

ompl

eted

Dire

ct B

ehav

ior

Ratin

gs (D

BR)

2010

9

9C

hris

t, Ri

ley-

Tillm

an, C

hafo

ulea

s &

Boi

ceD

irect

Beh

avio

r ra

ting

(DBR

): G

ener

aliz

abili

ty a

nd D

epen

dabi

lity

Acr

oss

Rate

rs a

nd O

bser

vatio

ns20

101,

2, 7

10C

hafo

ulea

s, B

riesc

h, R

iley-

Tillm

an, C

hris

t,Bl

ak &

Kilg

usA

n In

vest

igat

ion

of th

e ge

nera

lizab

ility

of D

irect

Beh

avio

r Ra

ting

Sing

le It

em S

cale

s (D

BR-S

IS) t

om

easu

re a

cade

mic

eng

agem

ent a

nd d

isru

ptiv

e be

havi

or o

f mid

dle

scho

ol s

tude

nts

2010

1

11Ri

ley-

Tillm

an, C

hris

t, C

hafo

ulea

s, B

oice

Mal

lach

& B

riesc

hTh

e Im

pact

of O

bser

vatio

n D

urat

ion

on th

e A

ccur

acy

of D

ate

Obt

aine

d Fr

om D

irect

Beh

avio

r Ra

-tin

g (D

BR)

2011

2, 4

, 8

12C

hris

t, Ri

ley-

Tillm

an, C

hafo

ulea

s &

Jaffe

ryD

irect

Beh

avio

r Ra

ting:

An

Eval

uatio

n of

Alte

rnat

e D

efin

ition

s to

Ass

ess

Cla

ssro

om B

ehav

iors

2011

4, 5

13C

hafo

ulea

s, K

ilgus

, Rile

y-Ti

llman

, Jaf

fery

& H

arris

onPr

elim

inar

y ev

alua

tion

of v

ario

us tr

aini

ng c

ompo

nent

s on

acc

urac

y of

Dire

ct B

ehav

ior

Ratin

g20

129

14V

olpe

& B

riesc

hG

ener

aliz

abili

ty a

nd D

epen

dabi

lity

of in

gle-

Item

and

Mul

tiple

-Item

Dire

ct B

ehav

ior

Ratin

g Sc

ales

for

Enga

gem

ent a

nd D

isru

ptiv

e Be

havi

or20

121,

2, 7

, 9

15Br

iesc

h, K

ilgus

, Cha

foul

eas,

Rile

y-Ti

llman

& C

hris

tTh

e In

fluen

ce o

f Alte

rnat

ive

Scal

e Fo

rmat

s on

the

Gen

eral

izab

ility

of D

ata

Obt

aine

d fro

m D

irect

Beha

vior

Rat

ing

Sing

le-It

em S

cale

s (D

BR-S

IS)

2012

2, 9

16Ki

lgus

, Cha

foul

eas,

Rile

y-Ti

llman

&W

elsh

Dire

ct b

ehav

ior

ratin

g sc

ales

as

scre

ener

s: A

pre

limin

ary

inve

stig

atio

n of

dia

gnos

tic a

ccur

acy

inel

emen

tary

sch

ool

2012

9

17C

hafo

ulea

s, Ja

ffery

, Rile

y-Ti

llman

, Chr

ist

& S

enTh

e Im

pact

of T

arge

t, W

ordi

ng, a

nd D

urat

ion

on R

atin

g A

ccur

acy

for

Dire

ct B

ehav

ior

Ratin

g20

134,

6

Tabe

lle 1

: Stu

dien

im R

evie

w

Anm

erku

ngen

: 1 =

Beo

bach

tung

sgüt

e; 2

= S

kale

ndes

ign;

3 =

Anz

ahl d

er It

ems;

4 =

Wah

l des

Beo

bach

tung

szie

ls; 5

= F

orm

ulie

rung

des

Beo

bach

tung

szie

ls; 6

= V

alen

z de

r Zi

el-

form

ulie

rung

; 7 =

Anz

ahl d

er M

essz

eitp

unkt

e; 8

= L

änge

der

Ver

halte

nsst

ichp

robe

n; 9

= A

usw

irkun

gen

eine

s Be

obac

hter

train

ings

83Direct Behavior Rating (DBR) als Methode zur Verhaltensverlaufsdiagnostik

as, Briesch, Riley-Tillman, Christ, Black &Kilgus, 2010; LeBel, Kilgus, Briesch & Cha-fouleas, 2009; Riley-Tillman et al., 2011; Ri-ley-Tillman, Chafouleas, Christ, Briesch &LeBel, 2009; Riley-Tillman, Chafouleas, Sas-su, Chanese & Glazer, 2008a; Schlientz, Ri-ley-Tillman, Briesch, Walcott & Chafouleas,2009). Die professionellen Rater haben da-bei entweder das Verhalten eines oder meh-rerer Schülerinnen und Schüler direkt imFeld beurteilt oder haben die Verhaltensbe-obachtung auf der Grundlage von Experi-mentalvideos vorgenommen. In den Studienwurden Bedingungen als günstiger bewertet,wenn die Übereinstimmung mit dem „wah-ren Wert“ höher war.

Zweitens der Anteil der Varianz in denMessdaten, der durch verschiedene Facet-ten erzeugt wird. Sieben Studien basierenauf der Generalisierungstheorie (Briesch,2010; Briesch, Kilgus, Chafouleas, Riley-Tillman & Christ, 2012; Chafouleas, Christ,Riley-Tillman, Briesch & Chanese, 2007;Chafouleas et al., 2009; Chafouleas et al.,2010; Christ, Riley-Tillman, Chafouleas &Boice, 2010a; Volpe & Briesch, 2012). DerAnsatz basiert auf der Idee, dass Varianzenin den Messwerten auf unterschiedlicheEinflussfaktoren (Facetten) der Messung zu-rückführbar sind. In den Studien geht es da-bei meist um die Untersuchung der Interra-ter-Reliabilität (Varianzanteil, der auf dieverschiedenen Rater zurückzuführen ist)von DBR-Instrumenten.

Das dritte Kriterium zur Bewertung derBeobachtungsgüte war die Stabilität derDBR-Beurteilungen desselben Experimen-talvideos zu zwei unterschiedlichen Zeit-punkten. Dieses Kriterium kann analog zurTest-Retest-Reliabilität und damit zur Intra-rater-Reliabilität interpretiert werden. Unterden recherchierten Arbeiten untersuchtenur eine Studie (Christ, Riley-Tillman, Cha-fouleas & Boice, 2010b) diesen Indikator.

Das folgende Review ist in zwei Teileunterteilt. Im ersten Teil sind Studien zusam-mengefasst, die sich grundsätzlich mit derBeobachtungsgüte von DBR-Skalen befassthaben. Hier sind insbesondere Studien be-

schrieben, die unter Verwendung der Gene-ralisierungstheorie die Frage untersuchen,wieviel Prozent der Varianz von DBR-Mess-reihen auf die Facetten von Ratern, Situatio-nen und beobachteten Personen zurückführ-bar sind. Im zweiten Teil des Reviews sindStudien zusammengefasst, die eine Optimie-rung der Beobachtungsgenauigkeit durch ei-ne systematische Veränderung der Rahmen-bedingung einer DBR-Messung untersuch-ten. Aus den Arbeiten im zweiten Teil lassensich nach Auffassung der Autoren insgesamtacht Untersuchungsschwerpunkte bilden.Da fast alle Studien gleichzeitig mehrere Fra-gestellungen prüften, werden die Arbeitenzum Teil unter mehreren Untersuchungs-schwerpunkten zitiert.

Teil 1: Grundlegende Studien zurUntersuchung der Beobachtungsgütevon DBR

Grundsätzlich ist davon auszugehen, dasseine zufriedenstellende Interrater-Reliabili-tät unter Verwendung von DBR schwierigerzu erreichen ist, als bei SDO-Messungen. In einer Generalisierungsstudie zeigtenBriesch, Chafouleas und Riley-Tillman(2010), dass sich bei beiden Methoden zwi-schen 47% und 48% der Varianz der Beur-teilungen durch die Varianz des Schülerver-haltens erklären lassen. In der Gruppe derLehrkräfte, die DBR als Methode nutzten,war die restliche Varianz jedoch zu einemgroßen Teil (20%) durch eine Interaktionzwischen der beobachtenden Lehrkraft undbeurteiltem Zielschüler erklärbar. Demge-genüber war in der Gruppe, die eine direk-te systematische Verhaltensbeobachtung alsMethode nutzten, weniger als 1% der Vari-anz durch diesen Interaktionseffekt erklär-bar (Briesch et al., 2010). Dieses Phänomenwird durch mehrere vergleichbar aufgebau-te Studien bestätigt (Chafouleas et al., 2007;Chafouleas et al., 2009; Chafouleas et al.,2010; Christ et al., 2010a; Hintze & Matt-hews, 2004).

Obwohl bei beiden Methoden ein ver-gleichbarer Anteil der Varianz durch das

84 Christian Huber& Christian Rietz

Verhalten des Zielschülers erklärbar ist, sinddirekte Verhaltensbeurteilungen demnachdeutlich stärker durch die beobachtendePerson geprägt. Insgesamt drei Forscher-gruppen analysierten die Urteilsfehler ge-nauer. Eine der ersten Studien führten Stee-ge et al. (2001) durch. In einer recht kleinenUntersuchung mit fünf Schülerinnen undSchülern zeigten die Autoren, dass die je-weiligen Lehrkräfte die aktive Teilnahmeund das stereotype Verhalten der Schülerin-nen und Schüler vergleichbar beurteiltenwie zwei professionelle Rater, die zu 30Zeitpunkten eine direkte systematische Ver-haltensbeobachtung vornahmen. Beide Ra-tergruppen sollten auf einer 6-fach unterteil-ten Likert-Skala angeben, wieviel Zeit einer15-minütigen Beobachtungseinheit dieSchülerinnen und Schüler das Zielverhaltenzeigten. In der Studie nahmen DBR-Raterund SDO-Rater in 94% bzw. 95% der Situa-tionen identische Ratings vor (Steege et al.,2001). Dieser Befund spricht wiederum füreine insgesamt gute Kriterumsvalidität undeine vergleichsweise hohe Interraterüber-einstimmung von DBR-Messungen. Riley-Tillman et al. (2008a) und Christ, Riley-Till-man, Chafouleas und Jaffery (2011) analy-sierten die Urteilsfehler differenzierter undzeigten, dass die Beobachtungsgüte starkvon dem beobachteten Verhaltensaspektabhängig ist. Die erste Autorengruppe un-tersuchte die Beobachtungsgüte für die Be-reiche Unterrichtsbeteiligung und störendesVerhalten (siehe auch unten). Die Befundemachten deutlich, dass die DBR-Werte in67% bis 93% der Fälle nur um +/- 1 Punktvon dem Wert abwichen, der durch eine di-rekte systematische Verhaltensbeurteilungzustande kam. Sogar 100% der DBR-Raterlagen innerhalb einer 2-Punkte-Abwei-chung zu den SDO-Ratern. Christ, Riley-Tillman, Chafouleas und Jaffery (2011) be-trachteten die durchschnittliche Richtungder Abweichung. Sie stellten bei ungeschul-ten DBR-Ratern und unter Verwendung ei-ner SI-Skala eine Überschätzung des beob-achteten Verhaltens um 1.5 Punkte fest.Dies bedeutet, dass die Probanden die Zeit,

in der der Zielschüler störte oder sich amUnterricht beteiligte um ca. 15% gegenüberden geschulten Beobachtern (SDO) über-schätzten (Riley-Tillman et al., 2011). Diebislang vorliegenden Studien lassen dem-nach keine grundsätzlichen Ableitungenzur Beobachtungsgüte von DBR-Beurteilun-gen zu. Die Befunde deuten generell daraufhin, dass DBR-Beurteilungen stärker durchdie beobachtende Person selbst beeinflusstsind als dies bei einer direkten systemati-schen Verhaltensbeobachtung der Fall ist.Damit wären statusdiagnostische Entschei-dungen, die auf der Grundlage von DBR-Messungen beruhen mit einer etwas höhe-ren Unsicherheit verbunden als statusdiag-nostische Entscheidungen, die auf Datenmittels SDO-Messungen fußen.

Ein weiteres Kriterium zur Bestimmungder Beobachtungsgüte von DBR-Skalen istdie Test-Retest-Reliabilität. Bislang unter-suchten nur Riley-Tillman und Kollegen(2011) diesen Aspekt der Beobachtungsgü-te. Im Rahmen dieser videogestützten Expe-rimentalstudie untersuchten die Autoren dieÜbereinstimmung der DBR-Beurteilungenvon 88 Studierenden zu zwei Messzeit-punkten. Die Probanden sollten hierzu dieTeilnahme am Unterricht und die Unter-richtsstörungen von Zielschülern in zweiidentischen Unterrichtsvideos in einem Ab-stand von einer Woche mit Hilfe einer elf-stufigen DBR-Skala (Prozent der Zeit) beur-teilen. Die Befunde ergaben, dass die Test-Retest-Reliabilität zwischen den Testzeit-punkten schwankte. Die höchste Test-Re-test-Reliabilität ergab sich mit Werten von r >0.7 für den Mittelwert von vier Einzelbe-obachtungen jeweils im Test und im Retest(Riley-Tillman et al., 2011). Diese ver-gleichsweise hohe Übereinstimmung zeigt,dass selbst die unerfahrenen studentischenRater mit Hilfe einer DBR-Skala zu zeitlichüberdauernden Urteilen kommen und so-mit keiner Willkür unterliegen. Insgesamtinterpretieren Christ, Riley-Tillman undChafouleas (2009) und auch später Chafou-leas (2011) die vorliegenden Befunde so,dass sie DBR sowohl für prozessdiagnosti-

85Direct Behavior Rating (DBR) als Methode zur Verhaltensverlaufsdiagnostik

sche Fragestellungen als auch für den status-diagnostischen Einsatz empfehlen.

In der Vergangenheit zeigten verschie-dene Arbeitsgruppen, dass die Beobach-tungsgüte durch verschiedene Faktoren wei-ter erhöht werden kann. Die bislang unter-suchten Faktoren zur Erhöhung der Beob-achtungsgüte von DBR-Messungen werdennun im zweiten Teil des Reviews skizziert.

Teil 2: Studien zur Untersuchungspezifischer Aspekte der Methode DBR

Im zweiten Teil des Reviews sollen nun Stu-dien zusammengefasst werden, die gezieltverschiedene Aspekte der Methode DBRuntersuchten. Analog zu den in Tabelle 1aufgeführten inhaltlichen Studienschwer-punkten lässt sich folgende Untergliederungformulieren:1) Skalendesign2) Anzahl der Items3) Anzahl der Messzeitpunkte4) Wahl des Beobachtungsziels5) Formulierung des Beobachtungsziels6) Valenz der Zielformulierung7) Länge der Verhaltensstichproben8) Auswirkungen eines Beobachtertrai-

nings

Skalendesign. DBR-Messungen erfolgenüber Ratingskalen. Mit Blick auf die Validi-tät und die Reliabilität der durchgeführtenMessungen stellt sich hier – wie aber auchsonst in der empirischen Forschung - dieFrage nach der „richtigen“ Zahl der Ausprä-gungen der jeweiligen Skalen (z.B. dreistu-fig, fünfstufig, elfstufig) und auch nach derAusgestaltung der Skalen (numerische, ver-bale oder grafische Stützung). Prototypischfür das verwendete Stimulusmaterial sind inAbbildung 2 zwei Präsentationsformen dar-gestellt.

Briesch et al. (2012), Chafouleas et al.(2009) sowie Christ et al. (2010b) konntenbislang auf Grundlage verschiedener Studi-en, die alle mit dem messtheoretischen An-satz der Generalisierbarkeitstheorie ausge-wertet wurden, bei Designs mit sechs-,zehn- und 14- stufigen Skalen keinen nen-nenswerten Einfluss der Skalenbreite auf diedurch die Lehrkräfte aufgeklärte Varianznachweisen. Auch die Länge der Skalen hat-te in den genannten Studien keinen signifi-kanten Einfluss auf die Beobachtungsgüte.Das bedeutet, dass die beurteilenden Lehr-kräfte durch die Veränderungen der Skalen-breite nicht gleichzeitig zu genaueren (bzw.ungenaueren) Ratern wurden. Auf der Basis

Abbildung 2: Elfstufige Skalen mit numerischer, grafischer und verbaler Stützung bzw.nur mit numerischer und verbaler Stützung

86 Christian Huber& Christian Rietz

einer Sekundäranalyse empfehlen Christ, Ri-ley-Tillman und Chafouleas (2009) die Ver-wendung von mindestens sechsstufigen Ska-len, wobei die empirische Grundlage dieserEmpfehlung offen bleibt. Riley-Tillman et al.(2011) untersuchten in einer weiteren Studieden Einfluss der Skalenbeschriftung (absolu-te Zeit in Sekunden vs. prozentualer Zeitan-teil der Erreichung eines Verhaltensziels proZeiteinheit) auf die Beobachtungsgüte. Auchhier fanden die Autoren keinen signifikantenEinfluss auf die Interrater-Reliabilität. Cha-fouleas (2011) empfiehlt zusammenfassendeine prozentuale Skala, die in Zehnerschrit-ten von 0% bis 100% reicht. Dieser Empfeh-lung folgend würde ein Rater mit Hilfe einerDBR-Skala einschätzen, wieviel Prozent derBeobachtungszeit eine Person ein zuvor de-finiertes Verhalten gezeigt hat. Allerdingslässt sich auch diese Schlussfolgerung, nachder ein prozentuales Maß anderen denkba-ren Maßen überlegen ist, anhand der hierdiskutierten Studien nicht empirisch absi-chern. So war auch unter den 17 betrachte-ten Veröffentlichungen keine Studie zu fin-den, die die zeitliche Verankerung der Beur-teilung gegenüber anderen Verankerungen(z.B. einer subjektiven Einschätzung derZielübereinstimmung) in einem vergleichen-den Design absicherten. Letztendlich sindweitere Studien durchzuführen, die dieseund weitere Fragestellungen in Bezug aufdas Skalendesign systematisch untersuchen.

Anzahl der Items. Als weiterer relevanterAspekt zur Erhöhung der Beobachtungsgütewurde die Frage nach der Anzahl der Items,die pro Messung eingeschätzt werden soll-ten, untersucht. Hierbei lassen sich zweigrundsätzliche Varianten von DBR-Instru-menten unterscheiden. Zum einen die Ein-schätzung des Zielverhaltens über ein ein-zelnes Item (Single-Item-Scale, im Folgen-den SIS). Zum anderen die Einschätzungdes Zielverhaltens über mehrere (spezifi-schere) Items (Multi-Item-Scale, im Folgen-den MIS). Bei einer MIS ist ein globales Ver-haltensziel durch mehrere spezifische Itemsoperationalisiert (siehe Tabelle 2). Im Rah-

men des Reviews fand sich eine Arbeit, dieunter der Verwendung der Generalisierbar-keitstheorie die Kriteriums-Validität von SISund MIS vergleichend untersuchte (Volpe &Briesch, 2012).

Grundsätzlich handelt es sich bei derGeneralisierbarkeitstheorie um Konzept zurAnalyse der Messgenauigkeit eines Messin-struments. Der Ansatz geht dabei davonaus, dass sich alle Messfehler vollständig inverschiedene Komponenten aufteilen undeinzelnen Faktoren (Facetten) zuordnen las-sen. Die Analyse der Messfehler erfolgt inder Regel über eine Varianzanalyse. Dabeiwerden in einem ersten Schritt (eine soge-nannte G-Study) verschiedene Varianzkom-ponenten ermittelt. In einem zweiten Schritt(eine sogenannte D-Study) wird wiederumgeprüft unter welchen Bedingungen die Fa-cetten der G-Studie unter dem Aspekt derGeneralisierbarkeit optimal ausgeprägt wä-ren (vgl. zum Vorgehen z.B. Eisend, 2007).

Volpe und Briesch (2012) haben in ihrerStudie pro zu beurteilendem Verhaltensbe-reich fünf Items formuliert, wobei unklarbleibt, auf welcher Datenbasis sie sich fürdiese Anzahl entschieden haben. Die Auto-ren zeigten im Rahmen ihrer Generalisie-rungsstudie (G-Study) mit zwei Beobachternund sieben Zielschülern, dass bei einer SISein weitaus höherer Anteil Beurteilungsvari-anz unerklärt blieb (ca. 33%) als bei einerMIS (zwischen 5% und 26%). Wenn dieVerhaltensbeurteilung direkt im Feld (d.h.direkt in der Schulklasse und nicht in einerLaborsituation) vorgenommen wurde, stiegder Anteil der unerklärten Varianz bei derVerwendung einer SIS stärker an als bei ei-ner MIS (Volpe & Briesch, 2012). In einerEntscheidungsstudie-Studie (D-Study) unter-suchten die Autoren, ob es einen Unter-schied zwischen einer SIS und einer MIS inBezug auf die Anzahl der Messzeitpunktebzw. Wiederholungsmessungen gibt, dienotwendig sind, um eine akzeptable Mess-genauigkeit zu erreichen. Vergleichsmaß-stab war in dieser Studie immer das Ergeb-nis einer direkten systematischen Verhal-tensbeobachtung durch zwei geschulte Ra-

87Direct Behavior Rating (DBR) als Methode zur Verhaltensverlaufsdiagnostik

ter. Als Maß für die Übereinstimmung leg-ten Volpe und Briesch (2012) einen Wertvon ρ2= .8 fest. Die Ergebnisse zeigten,dass dieses Kriterium bei der Verwendungvon MI-Skalen mit weniger Messzeitpunk-ten erreicht wurde als bei der Verwendungeiner SI-Skala. Die Autoren leiten aus die-sen Befunden insgesamt eine höhere Mess-genauigkeit von MI-Skalen ab. Sie diskutier-ten zudem, ob eine SIS im Vergleich zu ei-ner MIS „sensitiver“ ist und eher im Bereichder Veränderungsmessung verwendet wer-den kann. Einschränkend muss hier jedochbedacht werden, dass diese Interpretationder Befunde problematisch ist. So handeltes sich bei einer Messung mit Hilfe einerMIS mit vier Items strenggenommen umvier Messungen. Da Mittelwerte aus mehre-ren Messungen in der Regel stabilere Kenn-werte liefern als Werte von Einzelmessun-gen, ist es unklar, ob die bessere Messgütewirklich eine Folge der spezifischeren Ope-rationalisierung der Items ist oder ob es sichlediglich um das Resultat eines stabilerenMittelwerts handelt, welches auch bei derVerwendung von vier SIS-Messungen erzieltworden wäre.

Anzahl der Messzeitpunkte. Eine der erstenStudien zu dieser Fragestellung führtenHintze und Matthews (2004) durch. Im Mit-telpunkt standen dabei nicht DBR-Skalen,sondern die Güte von einer direkten syste-matischen Verhaltensbeobachtung. Bei ei-ner sehr konservativen Interpretation derBefunde kamen die Autoren zu demSchluss, dass schon allein für diese aufwän-dige Form der Verhaltensdiagnostik zwi-schen sieben und 20 Beurteilungssequen-zen notwendig sein könnten, um eine aus-reichende Beurteilerübereinstimmung zuerreichen. Andere Autorengruppen teiltendiese konservative Einschätzung nicht. Dieumfänglichsten Studien in Bezug auf direkte Verhaltensbeurteilungen führtenBriesch et al. (2010) sowie Christ et al.(2010b) durch. Unter Verwendung der Ge-neralisierungstheorie zeigten die Autoren-gruppen im Rahmen von Entscheidungsstu-

dien, dass für den Verhaltensbereich „Teil-nahme am Unterricht“ in der Regel rundfünf Beurteilungen à ca. 15 Minuten erfor-derlich sind, um einen reliabilitätsequiva-lenten Koeffzienten von ρ2>.6 zu erhaltenund so eine akzeptable Übereinstimmungmit SDO-Ratern zu erreichen. Dabei mach-te es nur einen geringfügigen Unterschied,ob die Beurteilungen an einem einzigenTag oder über mehrere Tage hinweg vorge-nommen wurden (Briesch et al., 2010).Wichtige pädagogische Entscheidung soll-ten jedoch besser und auf einem höherenLevel von ρ2>.80 abgesichert werden.Christ et al. (2010b) sowie Volpe undBriesch (2012) kamen für SI-Skalen zu demErgebnis, dass dieses strenge Kriterium erstnach weitaus mehr Messungen erreicht wer-den kann. Allerdings divergieren die Anga-ben zur Anzahl der notwendigen Messzeit-punkte über die verschiedenen Studien zwi-schen sieben Messungen für die „Teilnah-me am Unterricht“ (Volpe & Briesch, 2012)und bis zu 20 Messungen für „störendesVerhalten“ (Volpe & Briesch, 2012) oderdie aktive Beschäftigung mit einem Puzzle(Christ et al., 2010a). Insgesamt sind die Un-tersuchungsdesigns der Studien jedoch sounterschiedlich, dass die Befunde nur sehreingeschränkt miteinander verglichen wer-den können. Beispielsweise ließen Brieschet al. (2010) jeweils drei Sequenzen zwi-schen neun und 17 Minuten für zwölf Kin-dergartenkinder beurteilen, Volpe undBriesch (2012) acht Siebtklässler in dreizehnminütigen Sequenzen und Christ et al.(2010b) 18 einminütige Clips mit Grund-schülern.

Christ, Riley-Tillman und Chafouleas(2009) fassen den Stand der Forschung zu-sammen und folgern, dass zumindest für diegut erforschten Beobachtungsziele (Teilnah-me am Unterricht und störendes Verhalten)bei Verwendung einer DBR-SI-Skala min-destens fünf Beurteilungssituationen (quasials „Kalibrierungsphase“) zur Erreichung ei-ner zufriedenstellenden Validität und Relia-bilität ausreichend sind. Zur Erreichung ei-ner möglichst hohen diagnostischen Güte

88 Christian Huber& Christian Rietz

sollten darüber hinaus eher längere Verhal-tensstichproben als kurze Sequenzen einge-schätzt werden.

Wahl des Beobachtungsziels. Gleich meh-rere Studien untersuchten die Messgenauig-keit von DBR-Skalen in Abhängigkeit vonder Wahl des beobachteten Verhaltens. DieHypothese dieser Studien bestand darin,dass nicht jedes Verhalten im Unterrichtgleich exakt mit Hilfe von DBR-Skalen be-obachtet werden kann. Die vorliegendenBefunde bestätigen diese Hypothese. Soscheint die Beobachtung den Probanden inverschiedenen Studien immer dann mit grö-ßerer Genauigkeit (höhere Validität und hö-herer Interraterübereinstimmung) zu gelin-gen, wenn sie die „Teilnahme am Unter-richt“ (engl. academic engagement) oderdas „störende Verhalten“ (engl. disruptivebehavior) einer Schülerin oder eines Schü-lers beobachten sollten (Chafouleas, Jaffery,Riley-Tillman, Christ & Sen, 2013; Christ,Riley-Tillman, Chafouleas & Jaffery, 2011;Riley-Tillman et al., 2009).

Christ, Riley-Tillman, Chafouleas undJaffery (2011) zeigten, dass Korrelationenzwischen ungeschulten Verhaltensbeurtei-lern und geschulten Verhaltensbeobachternfür die Bereiche „Teilnahme am Unterricht“und „störendes Verhalten“ stabil zwischen r= .67 und r=.78 variieren (Christ, Riley-Tillman, Chafouleas & Jaffery, 2011). Riley-Tillman et al. (2008a) ergänzen diese Befun-de durch eine Feldstudie mit 15 Lehrkräf-ten, die jeweils einen Grundschüler im Rah-men ihres eigenen Unterrichts beurteilensollten. Die Autoren zeigten, dass die Ein-zelkorrelationen zwischen DBR- und SDO-Ratern in dem von Christ, Riley-Tillman,Chafouleas und Jaffery (2011) beschriebe-nen Bereich bleiben, wenn Beurteilungendirekt im Unterricht durch die jeweiligenLehrkräfte erfolgen. Die Korrelationen stie-gen weiter auf r=.81 (Teilnahme am Unter-richt) und r=.87 (störendes Verhalten),wenn die Werte für die drei Beobachtungs-zeitpunkte in einem Mittelwert verrechnetwurden (Riley-Tillman et al., 2008b).

Etwas größere Diskrepanzen zwischenDBR und SDO wurden sichtbar, wenn dieProbanden „angemessenes Verhalten“(engl. compliance) oder respektvolles Ver-halten (engl. respectful behavior) beurteilensollten. Für andere Beobachtungsbereiche(z.B. „Interaktion mit der Lehrkraft“, „Inter-aktion mit Klassenkameraden“ sowie fürmotorisches und sprachliches Verhalten) ga-ben die Autoren weniger robuste Korrelatio-nen von r<.4 an. In einer weiteren Studiekamen Riley-Tillman et al. (2011) zu einemvergleichbaren Schluss. Tabelle 2 stellt diein den Untersuchungen verwendeten Defi-nitionen der Beobachtungsziele zusammen-fassend dar.

Formulierung des Beobachtungsziels.Christ, Riley-Tillman, Chafouleas und Jaffery(2011) untersuchten den Einfluss von ver-schiedenen Formulierungen des Beobach-tungsziels bei SI-Skalen auf die Validität unddie Reliabilität der direkten Verhaltensbeur-teilung. Im Rahmen der Studie wurden 88Probanden (Studierende) gebeten, das Ver-halten von vier Schülerinnen und Schülernin fünf zweiminütigen Videoclips zu beurtei-len. Das Kriterium zur Bestimmung der Vali-dität war dabei die Übereinstimmung derDBR-Ratings mit zwei geschulten SDO-Ra-tern. Die Autoren zeigten, dass eine globaleZielformulierungen nahezu über alle Verhal-tensbereiche hinweg einer spezifischen Ziel-formulierung überlegen war (Christ, Riley-Tillman, Chafouleas & Jaffery, 2011). Analogzu diesen Befunden war auch die Interrater-Reliabilität bei globalen Zielformulierenebenfalls höher (zwischen r=.61 undr=.81), während sie bei spezifischen Ziel-formulierungen auf Werte zwischen r=.09und r=.60 absank (Christ, Riley-Tillman,Chafouleas & Jaffery, 2011). Zu vergleichba-ren Ergebnissen kamen auch Riley-Tillman,et al. (2009): In einem experimentellen De-sign mit 145 studentischen Probanden zeig-te die Autorengruppe, dass die Genauigkeitder DBR-Messungen im Vergleich zum„wahren“ Wert steigt, wenn die Zielformu-lierung global (z.B. Teilnahme am Unter-

89Direct Behavior Rating (DBR) als Methode zur Verhaltensverlaufsdiagnostik

richt) und nicht spezifisch (z.B. „hebt dieHand“, „folgt den Anweisungen“ oder „sitztangemessen“) vorgegeben wurde.

Valenz der Zielformulierung. Ein weiteresrelevantes Kriterium zur Erreichung einerguten Beobachtungsgenauigkeit könnte dieValenz der Zielformulierung sein. Beobach-tungsziele können grundsätzlich immereher ein positives erwünschtes Verhaltenoder ein negatives unerwünschtes Verhal-ten fokussieren. Riley-Tillman et al. (2009)und Chafouleas et al. (2013) untersuchtenden Einfluss positiver und negativer Zielfor-mulierungen bei SI-Skalen im Rahmen einesVergleichs der Messdaten von DBR- undSDO-Ratern. Auch hier wurden N=145bzw. N=113 Studierende gebeten, das Ver-halten eines Zielschülers in kurzen Video-clips zu beurteilen. Die Probanden wurdendabei in den Studien zufällig in zwei Expe-

rimentalgruppen aufgeteilt, die unterschied-liche Formulierungen (positiv vs. negativ)des Zielverhaltens erhielten. Beide Arbeits-gruppen kamen zu dem Ergebnis, dass einepositive (globale) Zielformulierung bei derBeobachtung der „Teilnahme am Unter-richt“ zu einer höheren Beobachtungsge-nauigkeit führt und eine negative Zielformu-lierung die Genauigkeit für den Bereich„störendes Verhalten“ verbessert. Demnachwar es für die Probanden einfacher korrektzu beurteilen, wie lange sich ein Zielschü-ler am Unterricht beteiligt hat, als zu beob-achten, wie lange sich der gleiche Schülernicht am Unterricht beteiligt hat. Andershe-rum war es für die Probanden einfacher,den zeitlichen Anteil des „störenden Ver-haltens“ in einer Unterrichtssequenz korrektzu beurteilen als den Anteil „nicht stören-den Verhaltens“. Uneindeutig waren dieBefunde für den Bereich respektvolles Ver-

Bereich Operationalisierung SI-Skala1 Operationalisierung MI-Skala2

Teilnahme am Unterricht(engl. academic engagement)

Academically engaged: actively or passi-vely participating in the classroom activity.Examples: writing, raising his or her hand,answering a question, talking about a les-son, listening to the teacher, reading si-lently, or looking at instructional materials.

Finishes work on time–Actively participates in class–Raises hand when appro-–priateWorks hard–Stays on task–

Störendes Verhalten(engl. disruptive behavior)

Disruptive: action that interrupts regularschool or classroom activity.Examples: out of seat, fidgeting, callingout, talking/ yelling about things that areunrelated to classroom instruction, actingaggressively, playing with objects

Calls out–Noisy–Clowns around–Talks to classmates when–inappropriateOut of seat/area–

Nicht-Respekt-volles Verhalten(engl. disrespect-ful behavior /compliance)

Disrespectful: noncompliant, defiant, in-subordinate, or socially rude behavior inresponse to adult directions and/or inter-actions with peers and adults.Examples: refusal to follow teacher di-rections, talking back, eyerolling, inappro-priate gesture, inappropriate languageand/or social interactions, disruption withnegative tone/connotation.

Tabelle 2: Operationalisierung von SIS und MIS

Anmerkungen: 1übernommen aus Chafouleas et al. (2013). Für die Studie wurde eine Skala von 0% bis100% eingesetzt (siehe Abbildung 2); 2übernommen aus Volpe und Briesch (2012). Für die Studie wurdeeine Skala von 1 (Verhalten trat nie auf) bis 6 (Verhalten trat während des gesamten Beobachtungszeitraumsauf) eingesetzt.

90 Christian Huber& Christian Rietz

halten. Hier empfehlen Chafouleas et al.(2013) eine negative Zielformulierung, alsoden Anteil „nicht respektvollen Verhaltens“.Letztendlich kann aus der Befundlage keineEmpfehlung in Bezug auf die „positive“oder „negative“ Zielexplikation abgeleitetwerden. Insgesamt zeigen die einzelnen Ar-beiten, dass die Ergebnisse der Studiennicht direkt von einem Beobachtungsbe-reich auf einen anderen übertragbar sind,sondern für die jeweiligen Beobachtungsbe-reiche getrennt betrachtet werden müssen.

Länge der Verhaltensstichproben. Riley-Till-man et al. (2011) untersuchten den Einflussder Länge einer Verhaltensstichprobe aufdie Beobachtungsgüte in einem experimen-tellen Design. Im Rahmen ihrer Studie lie-ßen die Autoren 81 studentische Probandenverschiedene Videoclips in verschiedenenLängen zweimal mit Abstand von einer Wo-che beurteilen. Das Forschungsteam zeigteim Rahmen dieser Studie, dass die Test-Re-test-Reliabilität stark zwischen den beob-achteten Situationen und der Beobach-tungszeit variierte. Grundsätzlich fiel dieTest-Retest-Reliabilität für die zehnminütigeBeobachtungssequenzen mit Korrelationenzwischen rtt=.31 und rtt=.56 etwas geringeraus als für 20-minütige Beobachtungsse-quenzen, wo die Spannweite zwischenrtt=.31 und rtt=1.00 lag (Riley-Tillman etal., 2011). Es ergaben sich zudem Hinweisedarauf, dass ein Mittelwert von mehrerenRatings zu einer höheren Reliabilität führenkönnte als einzeln vorgenommene Ratings(Riley-Tillman et al., 2011; Volpe & Briesch,2012). So lagen die Test-Retest-Reliabilitäts-werte höher, wenn eine 20-minütige Video-sequenz in vier 5-minütige Verhaltensstich-proben unterteilt und viermal getrennt mitHilfe einer DBR-Skala beurteilt wurde. Eszeigt sich also auch hier, dass für die Beur-teilung der gleichen Verhaltensstichprobeder Mittelwert aus mehreren einzelnen kur-zen Beurteilungen insgesamt ein robustererKennwert für eine Verhaltensbeurteilung istals eine einzelne DBR-Messung über einenlängeren Zeitraum. Kritisch muss bei dieser

Studie jedoch angemerkt werden, dass dieVideos in Test und Retest zu unterschiedli-chen Längen geschnitten waren, was zu ei-ner Verzerrung der Ergebnisse geführt ha-ben könnte. Insgesamt sind die hier ermit-telten Test-Retest-Reliabilitäten zudem eherunbefriedigend und DBR-Messungen soll-ten in weiteren Studien differenzierter imHinblick auf Optimierungspotenziale über-prüft werden.

Auswirkungen des Beobachtertrainings.Mit Blick auf den Einsatz von DBR-Instru-menten in der schulischen Praxis stellt sichdie Frage, inwieweit Beobachter-Trainingsdie Messgenauigkeit dieser Methode erhö-hen können. Während einige Experimen-talstudien schon bei unerfahrenen Studie-renden ohne Beobachter-Training zu ver-gleichsweise befriedigenden Ergebnissenkamen (Kilgus et al., 2012; Riley-Tillman etal., 2011), nahmen vor allem Autorengrup-pen, die ihre Studien mit kleineren Proban-denzahlen durchführten, zumeist ein kur-zes Beobachter-Training vor (Briesch et al.,2012; Volpe & Briesch, 2012). Die einzi-gen Studien, die den Effekt von Beobachter-schulungen auf die Messgenauigkeit vonDBR systematisch untersuchten stammenvon Schlientz et al. (2009) und LeBel et al.(2009). Erstere Autoren prüften in einer Ex-perimentalstudie mit 59 Studierenden, in-wieweit ein praktisches Beobachtertrainingdie Messgenauigkeit bei DBR verbessernkonnte. Die eine Hälfte der Studierendenwurde dabei zufällig einer Trainingsgruppezugeordnet, die eine ca. 23-minütige Ein-führung zur Verwendung von DBR-Instru-menten erhielt. Am Ende dieses Trainingssollten die Studierenden sechs Videose-quenzen mit Hilfe einer DBR-SIS bewerten,wobei den Studierenden direkt nach jederBeurteilung die Ergebnisse von geschultenVerhaltensbeobachtern zurückgemeldetwurden und sie somit ein unmittelbareskorrektives Feedback erhielten. Die andereHälfte der Probanden erhielt nur eine kurzeEinführung. Schlientz et al. (2009) zeigten,dass die Messgenauigkeit der trainierten

91Direct Behavior Rating (DBR) als Methode zur Verhaltensverlaufsdiagnostik

Studierenden signifikant höher war als dieBeobachtungen der Kontrollgruppe. Diehöhere Genauigkeit zeigte sich in einer hö-heren Interrater-Übereinstimmung und ei-ner geringeren durchschnittlichen Abwei-chung der trainierten Beurteiler von den Er-gebnissen einer direkten systematischenVerhaltensbeobachtung (Schlientz et al.,2009). Zu etwas anderen Ergebnissen ka-men LeBel et al. (2009) in ihrer Studie. DieAutoren teilten die Probanden in drei Expe-rimentalgruppen auf, wobei eine Gruppeuntrainiert blieb und zwei weitere Gruppenein unterschiedlich intensives Beobachter-training erhielten. Die Befunde zeigten,dass ein besonders intensives Training mitÜbungsphasen im Vergleich zu einem kur-zen einführenden Training ohne Trainings-phasen keine signifikante Verbesserung derBeobachtungsgüte brachte (LeBel et al.,2009). Die Befunde deuten darauf hin, dassmöglicherweise eine kurze Schulung imUmgang mit DBR-Skalen ausreicht, um ei-ne bestmögliche Genauigkeit von DBR-Messungen zu erhalten. Zu grundsätzlichvergleichbaren Befunden kamen auch Cha-fouleas, Kilgus, Riley-Tillman, Jaffery undHarrison (2012) in ihrer Experimentalstu-die. Die Autoren zeigten, dass ein intensi-veres Training nur dann zu einer höherenBeobachtungsgenauigkeit führt, wenn essich um weniger eindeutiges Verhalten ineinem qualitativ mittleren Ausprägungs-grad handelte, wie z.B. eine qualitativ mit-telmäßige Beteiligung am Unterricht (Cha-fouleas et al., 2012).

Diskussion

Im ersten Teil der Arbeit wurde Direct Beha-vior Rating als alternative Methode zur Di-agnose von Verhaltensentwicklungen in derSchule dargestellt. Dabei wurde DBR alsHybridform aus einer direkten systemati-schen Verhaltensbeobachtung und einerVerhaltensbeurteilung beschrieben. Im Ge-gensatz zu einer sehr viel aufwändigeren di-rekten systematischen Verhaltensbeobach-

tung sollen die Bobachtungswerte nichtdurch das exakte Auszählen einzelner Ver-haltensstichproben, sondern, wie bei einerVerhaltensbeurteilung, auf einer mehrstufi-gen Likert-Skala angegeben werden. Im Un-terschied zu einer Verhaltensbeurteilungwerden die Messungen nicht einmalig zueinem bestimmten Zeitpunkt vorgenom-men, sondern hochfrequent mehrfach amTag und direkt im Anschluss an die Beob-achtungssituation. Durch die hohe Anzahlan Messwerten lassen sich einerseits Ent-wicklungsverläufe abbilden. Andererseitserhoffen die derzeit tätigen Arbeitsgruppen,dass durch eine intensive Beforschung vonDBR als Methode grundsätzliche Ableitun-gen zur Beobachtungsgüte unabhängig vonder beobachtenden Person möglich sindund somit die aufwändige Überprüfung vonInterrater-Reliabilität oder Kriteriums-Validi-tät, wie es im Rahmen einer direkten syste-matischen Verhaltensbeobachtung empfoh-len wird, nicht mehr zwingend erforderlichsind. Um die Eignung der Methode für diepraktische Diagnostik in Unterricht undSchule besser abschätzen zu können, wur-den die bislang vorliegenden Befunde imRahmen eines Reviews ausgewertet.

Die Ergebnisse des systematischen Re-views geben Hinweise darauf, dass die Be-obachtungsgüte von DBR-Messungen imGegensatz zu SDO-Messungen geringer istund stärker von der beobachtenden Personabhängt. Es lassen sich jedoch auf derGrundlage der bislang vorliegenden For-schungsarbeiten einige Hinweise zur Erhö-hung der Beobachtungsgüte ableiten.

So scheinen Validität und Reliabilität ineinem erheblichen Maße von dem zu beob-achtenden Zielverhalten abzuhängen. DieBeobachtungsgüte stieg in den vorliegen-den Studien an, wenn ein Zielverhalten be-urteilt werden sollte, das im schulischenKontext gut zu beobachten und zu operatio-nalisieren war. Die beste Beobachtungsge-nauigkeit lag für die Bereiche „Teilnahmeam Unterricht“ und „störendes Verhalten“vor. Eine weiterhin akzeptable Beobach-tungsgüte lag für den Bereich des „respekt-

92 Christian Huber& Christian Rietz

vollen Verhaltens“ vor. Chafouleas (2011)bezeichnet diese drei Beobachtungsberei-che als die „Big 3“ der Methode DBR.

Bei der Gestaltung der Itemskalen schei-nen zwei verschiedene Strategien zu einerErhöhung der Kriteriums-Validität zu füh-ren. Im Rahmen der ersten Strategie wirddie Übereinstimmung mit dem „wahrenVerhalten“ durch das Rating mehrerer spe-zifischer Verhaltensausschnitte erhöht. Diesist bei Multi-Item-Scales der Fall. Pro Beob-achtungseinheit sind somit nicht nur eine,sondern mehrere spezifische Beurteilungenvorzunehmen. Trotz der hier in der Ten-denz höheren Stabilität und Übereinstim-mung mit der systematischen Verhaltensbe-obachtung bleibt zu beachten, dass dieKomplexität bzw. Schwierigkeit der Bewer-tungsaufgabe für den Rater mit jedem zu-sätzlichen Item steigt.

Die zweite Strategie bezieht sich aufden Einsatz von SI-Skalen. Zur Erhöhungder Beobachtungsgüte sollte das Zielverhal-ten bei diesem Skalentyp möglichst positivund global formuliert sein und eher die An-wesenheit eines Verhaltensbereiches undweniger die Abwesenheit eines sehr spezifi-schen Verhaltensausschnitts definieren. Dieverwendeten Skalenbreiten und Veranke-rungen hatten in den hier zusammengefass-ten Arbeiten hingegen keinen messbarenEinfluss auf die Beobachtungsgüte.

Die Angaben über die zur Erlangung ei-ner akzeptablen Beobachtungsgüte erfor-derliche Anzahl an Beurteilungen schwan-ken stark. Die hier zusammengefassten Stu-dien legen nahe, dass bei weniger als fünfMesszeitpunkten die Messwerte zu starkzwischen den Ratern streuen und somitmehr Varianz durch die Person des Ratersaufgeklärt wird als durch die Verhaltensun-terschiede der beobachteten Personen. Beientscheidungsrelevanten Fragestellungenempfehlen einige Autoren sicherheitshalbersogar die Zusammenfassung von bis zu 20Messwerten. Die vorliegenden Studien deu-ten darauf hin, dass Validität und Reliabili-tät von DBRs weiter steigen, wenn die Raterzuvor ein kurzes Training durchlaufen ha-

ben. Hinweise auf eine Verbesserung derBeobachtungsgüte durch intensive Trai-ningsphasen gab es bislang nicht.

Insgesamt stellt sich bei einer Diskussi-on über die Eignung von DBR für die Diag-nostik bei Verhaltensproblemen die Fragenach der Zielsetzung und der Fragestellungihres Einsatzes. So lassen sich die bislangvorliegenden Befunde dahingehend inter-pretieren, dass direkte Verhaltensbeurtei-lungen, die nur auf wenigen Beobachtun-gen beruhen, auch bei ansonsten optimier-ten Einsatzbedingungen je nach Beobach-tungsziel mit einer erheblichen interperso-nalen Varianz versehen sind. Eine zuverläs-sige statusdiagnostische Einschätzung solltemindestens auf 20 Messdaten beruhen undbietet auch dann nur einen sehr eng um-grenzten Erkenntnisgewinn, da er sich beiVerwendung einer einzelnen SI-Skala nurauf ein einzelnes Merkmal (z.B. Unterricht-sengagement) bezieht. Der Sinn und derNutzen von DBR für die Statusdiagnostikwären demnach nicht besonders hoch unddie Ökonomie der Methode wäre vor die-sem Hintergrund gering.

Bewertet man die Befunde vor dem Hin-tergrund einer prozessdiagnostischen Ziel-setzung verändert sich dieses Bild. So zei-gen die Daten zunächst, dass 20 Messzeit-punkte gemeinsam ein solides diagnosti-sches Bild ergeben. Betrachtet man dieÖkonomie und die Geschwindigkeit, mitder eine einzelne DBR-Messung insbeson-dere bei Verwendung einer SI-Skala erfolgt,lassen sich im Laufe einer Schulwoche vie-le Messungen vornehmen. Würde eineLehrkraft zum Beispiel nach jeder Schul-stunde eine Beurteilung vornehmen, ließensich auf dieser Grundlage pro Woche leicht20-30 Messdaten gewinnen. Auf diese Wei-se entsteht im Verlauf einzelner Wochenschnell eine solide Datengrundlage für eineprozessdiagnostische Betrachtung einesVerhaltensausschnitts in der Schule.

Die prozessdiagnostische Eignung vonDBR-Skalen wird jedoch unter anderemdurch die zeitliche Stabilität der Raterurtei-le begrenzt. Die bislang vorliegenden Be-

93Direct Behavior Rating (DBR) als Methode zur Verhaltensverlaufsdiagnostik

funde zeigen, dass die Test-Retest-Reliabili-tät von direkten Verhaltensbeurteilungenvergleichsweise hoch ist, sofern sie aufmehreren (dort fünf) DBR-Messungen be-ruht (Riley-Tillman et al., 2011). Allerdingsmuss hier kritisch angemerkt werden, dasseine Korrelation zwischen einem Test undihrem Retest nur eine Aussage darüber zu-lässt, inwieweit die Raterprofile über eineReihe von Messdaten übereinstimmen. EinKorrelationsmaß lässt hingegen keine Aus-sage darüber zu, inwieweit die absolutenMesswerte oder die Mittelwerte von einerTest- und einer Retestreihe tatsächlich über-einstimmen. Letzteres wäre jedoch ein rele-vantes Kriterium für die Verwendung vonDBR-Instrumenten in der Praxis. Insbeson-dere wenn ein und dieselbe Situation zuzwei Zeitpunkten von einem Rater ver-gleichbar eingeschätzt wird, sind DBR-Mes-sungen ein guter Indikator für Verhaltens-entwicklungen. Bestätigen sich die bislangvorliegenden Befunde in weiteren Studien,bedeutete dies, dass die intrapersonelle Ein-schätzung eines Verhaltens im Unterrichtvergleichsweise stabil sein könnte. Dies wä-re eine wichtige Voraussetzung für den pro-zessdiagnostischen Einsatz von DBR bei derBeurteilung von Verhaltensentwicklungen.Weitere Forschungsarbeiten müssen in die-sem Zusammenhang Klarheit schaffen.

Im Gegensatz zu einer statusdiagnosti-schen Zielsetzung von DBR-Messdaten wärees bei ihrem prozessdiagnostischen Einsatzzudem weniger relevant, inwieweit dieLehrkraft das Verhalten als „überdurch-schnittlich“, „unterdurchschnittlich“ oder„normal“ einschätzt. Entscheidend für einenprozessdiagnostischen Einsatz von DBR istvor allem die Frage, ob es aus Sicht der be-obachtenden Person eine Veränderung desVerhaltens über die Zeit gibt. DBR-Messun-gen in der Schule können damit insbesonde-re eingesetzt werden, um die Wirksamkeitpädagogischer Maßnahmen in Schule undFamilie auszuwerten. Sie bilden damit dasFundament für evidenzbasierte Entschei-dungsprozesse in multiprofessionellenTeams, wie sie beispielsweise im response-

to-intervention-Konzept empfohlen werden(Reschley & Bergstrom, 2009). Stellt man dieAnzahl der erreichten Punkte pro Wochezum Beispiel als Kurve dar, könnten profes-sionelle Helferinnen und Helfer, aber auchEltern und ein Schüler oder eine Schülerinselbst ohne großen Aufwand die Verhaltens-entwicklung über das Schuljahr erkennenund gemeinsam Rückschlüsse über dieWirksamkeit der eingeleiteten Maßnahmenziehen. Insbesondere die Auswertung einesEntwicklungsverlaufs als „Response“ auf zu-vor eingeleitete pädagogische Maßnahmenin Schule oder Umfeld bietet dabei neue An-satzpunkte für die weitere pädagogische Ar-beit. Direct Behavior Rating muss vor die-sem Hintergrund also in erster Linie als för-derdiagnostisches Instrument betrachtet wer-den, in deren Mittelpunkt die Wirkung einerIntervention und weniger die Etikettierungeines Schülers oder einer Schülerin steht.

Mit Blick auf die praktische Umsetzungvon DBR im Schulalltag stellt sich die Frage,wer die DBR-Messungen tatsächlich durch-führen soll. Da DBR auf hochfrequentenMessungen beruht, wäre es auch für diePraxis unerlässlich, dass die Messungen vonPersonen vorgenommen werden, die täg-lich bzw. regelmäßig in Kontakt mit den be-treffenden Kindern und Jugendlichen kom-men. Betrachtet man die Studien in diesemReview unter diesem Aspekt, scheinenLehrkräfte hier tatsächlich die bevorzugteAnwendergruppe für diese Methode zusein. Aber auch andere pädagogische Fach-kräfte wie Erzieher (z.B. im Kindergarten)oder Sozialpädagogen (z.B. im offenenGanztag) oder gar die Eltern kommengrundsätzlich als mögliche Anwender die-ser Technik in Frage. Insbesondere, da diein diesem Review diskutierten Studien ge-zeigt haben, dass selbst Laienbeobachter,die eine kurze Schulung erhalten haben, zu-friedenstellende Einschätzungen liefernkönnen. Wichtig erscheint jedoch, dass die-se Schulungen im Alltag auch tatsächlichstattfinden. Ferner muss auch für den Alltageine Qualitätssicherung im Hinblick aufDBR diskutiert werden, bei der eine ausrei-

94 Christian Huber& Christian Rietz

chende Beobachtungsgüte der Rater nichteinfach unterstellt, sondern von Zeit zu Zeitauch geprüft wird.

Einschränkend muss gesagt werden,dass die hier diskutierte Befundlage noch zugering ist, um die prozessdiagnostische Eig-nung von DBR seriös einschätzen zu kön-nen. Mit Blick auf die erhebliche Bandbrei-te an Verhaltensauffälligkeiten in der Schu-le muss geprüft werden, inwieweit DBR tat-sächlich für alle Verhaltensausschnitte einevalide und reliable Methode der Prozessdi-agnostik ist oder der Einsatz der Technik aufeinzelne Verhaltensbereiche beschränktbleiben sollte. So weisen die Studien daraufhin, dass insbesondere sehr auffällige Ver-haltensausprägungen leichter zu beurteilensind als weniger auffällige. Ferner liegenbislang keine Erkenntnisse zum Einsatz vonDBR bei internalisierenden Verhaltensauf-fälligkeiten vor. Insgesamt bleibt also bei ei-ner Gesamtbetrachtung der Befunde unklar,inwieweit eine gute Test-Retest-Reliabilitätauch in anderen Studien mit anderen Ziel-verhaltensweisen replizierbar ist.

Das Review umfasst viele qualitativ sehrunterschiedliche Einzelbefunde, so dass(neben der generellen Übertragbarkeit aufden deutschen Sprachraum) eine integrie-rende Betrachtung nur bedingt möglich ist.Einige Parameter sind zudem bisher über-haupt nicht untersucht worden: So fehlenbeispielsweise Untersuchungen zur„Schwierigkeit“ der diagnostischen Situati-on. So gibt es inhaltliche, methodische unddidaktische Rahmenbedingungen in derSchule (z.B. ein interessanter Unterrichts-stoff oder eine spannende Methode derLehrkraft), die das Auftreten eines bestimm-ten Verhaltens wahrscheinlicher machenund andere, die es eher unwahrscheinlichermachen. Völlig ungeklärt ist, wie Verhal-tensentwicklungen vor dem Hintergrundschwankender Situationsschwierigkeiten in-terpretiert werden sollen.

Mit Blick auf die vorliegenden For-schungsarbeiten erscheint auch die Interpre-tation von Befunden, die auf sehr kleinenStichproben oder wenigen zu bewertenden

Verhaltenssequenzen basierten, als schwie-rig. Hier sind sicherlich Replikationen untersystematischer Bedingungsvariation notwen-dig. Ebenso fehlen weitere systematischeStudien zur Formulierung des Beobach-tungsziels, da es durchaus denkbar ist, dasssprachliche Unterschiede bei der Formulie-rung des Beobachtungsziels auch zu einerVeränderung der Beobachtungsgüte führen.Eine weitere Forschungslücke betrifft dieFrage, inwieweit professionelle Beobachterzu einer anderen Einschätzung des Zielver-haltens gelangen als Laienbeobachter. So istein Großteil der hier diskutierten Studien mitHilfe von Studierenden ohne Berufserfah-rung entstanden. Generalisierungsstudienbezogen zwar unterschiedliche Berufsgrup-pen (z.B. Laienbeobachter und Erzieher oderLehrer) mit ein, hier waren die Anzahl derBeobachter jedoch oft gering.

Unabhängig von der Variation der „un-abhängigen Variablen“, die einen Einflussauf die „Qualität“ einer DBR-Messreihe ha-ben, muss weitere Forschung die Frage klä-ren, wie eigentlich die „Qualität“ dieserspezifischen Form der Messung, bei der imGrunde der Beobachter das „Messinstru-ment“ ist, definiert werden kann. Zumalhier normale testtheoretische Gütekriterienzur Bewertung der Beobachtungsgütestreng genommen nicht ohne weiteres über-nommen werden können. Ebenso muss ineinem darauf folgenden Schritt die Fragebeantwortet werden, mit welchen Verfah-ren die „Qualität“ der DBR statistisch über-prüft werden kann.

Trotz dieser zahlreichen Probleme er-scheint es den Autoren wichtig, DBR als Me-thode zur Verhaltensverlaufsdiagnostik inder Schule zu optimieren. In der Vergangen-heit haben zahlreiche Studien gezeigt, dassein Lern- und Entwicklungsfeedback die Effi-zienz von pädagogischen Interventionendeutlich steigern können (Hattie, 2008; Hat-tie & Timperley, 2007). Insofern wäre es so-wohl für eine verbesserte Förderung vonKindern mit Verhaltensproblemen in derSchule als auch für den effizienten Einsatzschulischer Ressourcen wichtig, valide und

95Direct Behavior Rating (DBR) als Methode zur Verhaltensverlaufsdiagnostik

reliable Instrumente zur Verhaltensverlaufs-diagnostik (weiter) zu entwickeln. Der hierdiskutierte Ansatz des Direct Behavior Ra-tings erscheint vor dem Hintergrund der hierzusammengefassten Befunde hierfür alssinnvoller Ausgangspunkt. Allerdings müs-sen die hier diskutierten offenen Fragen füreinen flächendeckenden Einsatz von DBRbesser und umfassender beantwortet wer-den, als es die derzeitige Forschungslage er-laubt. Insbesondere müssen weitere For-schungsarbeiten zeigen, für welchen kon-kreten Einsatzbereich und für welche päda-gogischen Fragestellungen DBR tatsächlichsinnvoll eingesetzt werden kann.

Literaturverzeichnis

Amelang, M. & Schmidt-Atzert, L. (Hrsg.).(2006). Psychologische Diagnostik undIntervention (4., Vollst. Uberarb., Aktuali-sierte Aufl). Berlin: Springer.

Bortz, J. & Döring, N. (2006). Forschungsme-thoden und Evaluation. Für Human- undSozialwissenschaftler (4., überarbeiteteAufl.). Heidelberg: Springer.

Briesch, A. M. (2010). Generalizability anddependability of behavioral assessmentmethods: A comparison of systematic di-rect observation and direct behavior ra-tings. Dissertation Abstracts InternationalSection A: Humanities and Social Sci-ences, 70 (9-A), 3338.

Briesch, A. M., Chafouleas, S. M. & Riley-Till-man, T. C. (2010). Generalizability anddependability of behavior assessment me-thods to estimate academic engagement:A comparison of systematic direct obser-vation and direct behavior rating. SchoolPsychology Review, 39 (3), 408–421.

Briesch, A. M., Kilgus, S. P., Chafouleas, S. M.,Riley-Tillman, T. C. & Christ, T. J. (2012).The Influence of Alternative Scale Formatson the Generalizability of Data ObtainedFrom Direct Behavior Rating Single-ItemScales (DBR-SIS). Assessment for EffectiveIntervention, 38 (2), 127–133.

Chafouleas, S. M. (2011). Direct Behavior Ra-ting: A Review of the Ussues an Researchin Its Development. Education And Treat-ment of Children, 34 (4), 575–591.

Chafouleas, S. M., Briesch, A. M., Riley-Till-man, T. C., Christ, T. J., Black, A. C. & Kil-gus, S. P. (2010). An investigation of thegeneralizability and dependability of Di-rect Behavior Rating Single Item Scales(DBR-SIS) to measure academic engage-ment and disruptive behavior of middleschool students. Journal of School Psy-chology, 48 (3), 219–246. Verfügbar un-ter http://dx.doi.org/10.1016/j.jsp.2010.02.001

Chafouleas, S. M., Christ, T. J. & Riley-Tillman,T. C. (2009). Generalizability of ScalingGradients on Direct Behavior Ratings.Educational and Psychological Measure-ment, 69 (1), 157–173.

Chafouleas, S. M., Christ, T. J., Riley-Tillman,T. C., Briesch, A. M. & Chanese, Julie A.M. (2007). Generalizability and dependa-bility of direct behavior ratings to assesssocial behavior of preschoolers. SchoolPsychology Review, 36 (1), 63–79.

Chafouleas, S. M., Jaffery, R., Riley-Tillman, T.C., Christ, T. J. & Sen, R. (2013). The Im-pact of Target, Wording, and Duration onRating Accuracy for Direct Behavior Ra-ting. Assessment for Effective Interventi-on, 39 (1), 39–53.

Chafouleas, S. M., Kilgus, S. P., Riley-Tillman,T. C., Jaffery, R. & Harrison, S. (2012).Preliminary evaluation of various trainingcomponents on accuracy of Direct Beha-vior Ratings. Journal of School Psycholo-gy, 50 (3), 317–334. Verfügbar unterhttp://dx.doi.org/10.1016/j.jsp.2011.11.007

Chafouleas, S. M., Riley-Tillman, T. C. &Christ, T. J. (2009). Direct Behavior Rating(DBR): An emerging method for assessingsocial behavior within a tiered interventi-on system. Assessment for Effective Inter-vention, 34 (4), 195–200. Verfügbar unterhttp://dx.doi.org/10.1177/1534508409340391

96 Christian Huber& Christian Rietz

Chafouleas, S. M., Riley-Tillman, T. C. & Sassu,K. A. (2002). Good, bad or in-between:How does the Daily Report Card rate? Psy-chology in the Schools, 39, 157–169.

Christ, T. J., Riley-Tillman, T. C. & Chafouleas,S. M. (2009). Foundation for the develop-ment and use of Direct Behavior Rating(DBR) to assess and evaluate student be-havior. Assessment for Effective Interven-tion, 34 (4), 201–213.

Christ, T. J., Riley-Tillman, T. C., Chafouleas,S. M. & Boice, C. H. (2010a). Direct Be-havior Rating (DBR): Generalizability anddependability across raters and observati-ons. Educational and Psychological Mea-surement, 70 (5), 825–843. Verfügbar un-ter http://dx.doi.org/10.1177/0013164410366695

Christ, T. J., Riley-Tillman, T. C., Chafouleas,S. M. & Boice, C. H. (2010b). Direct Be-havior Rating (DBR): Generalizability andDependability Across Raters and Obser-vations. Educational and PsychologicalMeasurement, 70 (5), 825–843.

Christ, T. J., Riley-Tillman, T. C., Chafouleas,S. & Jaffery, R. (2011). Direct behavior ra-ting: An evaluation of alternate definitionsto assess classroom behaviors. SchoolPsychology Review, 40 (2), 181–199.

Cone, J. D. (1988). Psychometric considerati-ons. In A. S. Bellack & M. Hersen (Hrsg.),Behavioral assessment. A practical hand-book (Pergamon general psychology se-ries, Bd. 65, 3rd ed, S. 38–68). New York:Pergamon Press.

Deno, S. L. (2003). Developments in curricu-lum-based measurement. The Journal ofSpecial Education, 37 (3), 184–192.

Diehl, K. & Hartke, B. (2012). IEL-1. Inventarzur Erfassung der Lesekompetenz im 1.Schuljahr : ein curriculumbasiertes Ver-fahren zur Abbildung des Lernfortschritts.Göttingen: Hogrefe.

Eisend, M. (2007). Methodische Grundlagenund Anwendungen der Generalisierbar-keitstheorie in der betriebswirtschaftli-chen Forschung, WiSt, 36, 494-500.

Fuchs, L. S. & Fuchs, D. (1986). Effects of sys-tematic formative evaluation: A meta-ana-

lysis. Exceptional Children, 53 (3), 199–208.

Fydrich, T. (2012). Diagnostik in der Klini-schen Psychologie. In L. Schmidt-Atzert(Hrsg.), Psychologische Diagnostik (Sprin-ger-Lehrbuch, 5., vollständig überarbeite-te und erweiterte Auflage, S. 503–537).Berlin, Heidelberg: Springer Berlin Hei-delberg.

Grosche, M. & Huber, C. (in Druck). Die pass-genaue Abstimmung zwischen Lernbe-dürfnissen und Lernmethoden durch dasKonzept Response-to-Intervention (RTI).In K. Reich & D. Asselhoven (Hrsg.), Eine(inklusive) Schule (neu) erfinden. Frank-furt a.M.: Campus.

Hattie, J. (2008). Visible learning. A synthesisof meta-analyses relating to achievement.London: Routledge.

Hattie, J. & Timperley, H. (2007). The Powerof Feedback. Review of Educational Rese-arch, 77 (1), 81–112.

Hintze, J. M. & Matthews, W. J. (2004). TheGeneralizability of Systematic Direct Ob-servations Across Time and Setting: A Pre-liminary Investigation of the Psychome-trics of Behavioral Observation. SchoolPsychology Review, 33 (2), 258–270.

Hosp, M. K., Hosp, J. L. & Howell, K. W.(2007). The ABCs of CBM. A practicalguide to curriculum-based measurement.New York: Guilford Press.

Huber, C. (2013). Token-Systeme – Kriterienwirksamer schulischer Verhaltensmodifi-kation. In H. Bartnitzky, U. Hecker & M.Lassek (Hrsg.), Individuell fördern - Kom-petenzen stärken. Ab Klasse 3 (Beiträgezur Reform der Grundschule, Bd. 135,neue Ausg, S. 47–54). Frankfurt am Main:Grundschulverband - Arbeitskreis Grund-schule.

Huber, C. & Grosche, M. (2012). Das respon-se-to-intervention Modell als Grundlagefür einen inklusiven Paradigmenwechselin der Sonderpädagogik. Zeitschrift furHeilpadagogik, 63 (8), 312–322.

Hussy, W., Schreier, M. & Echterhoff, G.(2013). Forschungsmethoden in Psycho-logie und Sozialwissenschaften für Bache-

97Direct Behavior Rating (DBR) als Methode zur Verhaltensverlaufsdiagnostik

lor. Mit 23 Tabellen (Springer-Lehrbuch,2., überarb. Aufl). Berlin: Springer.

Johnson, M. E., Fuchs, D. & McKnight, M. A.(2006). Responsiveness to Intervention(RTI): How to Do It., National ResearchCenter on Learning Disabilities. Verfügbarunter http://eric.ed.gov/ERICWebPortal/contentdelivery/servlet/ERICServlet?accno=ED496979

Kilgus, S. P., Chafouleas, S. M., Riley-Tillman,T. C. & Welsh, M. E. (2012). Direct beha-vior rating scales as screeners: A prelimi-nary investigation of diagnostic accuracyin elementary school. School PsychologyQuarterly, 27 (1), 41–50. Verfügbar unterhttp://dx.doi.org/10.1037/a0027150

Kilgus, S. P., Riley-Tillman, T. C., Chafouleas,S. M., Christ, T. J. & Welsh, M. E. (2014).Direct behavior rating as a school-basedbehavior universal screener: Replicationacross sites. Journal of School Psycholo-gy, 52 (1), 63–82.

Kivirauma, J. & Ruoho, K. (2007). Excellencethrough special education? Lessons fromthe Finnish school reform. Internationalreview of education, 53 (3), 283–302.

Klauer, K. J. (2006). Erfassung des Lernfort-schritts durch curriculumbasierte Mes-sung. Heilpädagogische Forschung (1),16–26.

Kooij, R. van der. (2004). Förderdiagnostik alsProzess. In P. Jogschies (Hrsg.), Neue Ent-wicklungen in der Förderdiagnostik.Grundlagen und praktische Umsetzungen(1. Aufl.). Weinheim: Beltz.

LeBel, T. J., Kilgus, S. P., Briesch, A. M. & Cha-fouleas, S. (2009). The Impact of Trainingon the Accuracy of Teacher-CompletedDirect Behavior Ratings (DBRs). Journal ofPositive Behavior Interventions, 12 (1),55–63.

Müller, C. M. & Hartmann, E. (im Druck).Lernfortschrittsdiagnostik: Grundrechen-arten. 120 Drei-Minuten-Tests für den in-klusiven Mathematikunterricht - ZR 1-100. Hamburg: Persen Verlag.

Nelson, R. O., Hay, L. R. & Hay, W. M.(1977). Comments on Cone’s ‘The rele-vance of reliability and validity for beha-

vioral assessment.’. Behavior Therapy, 8(3), 427–430. Verfügbar unter http://dx.doi.org/10.1016/S0005-7894(77)80078-6

Reschley, D. & Bergstrom, M. K. (2009). Re-sponse to Intervention. In T. B. Gutkin &C. R. Reynolds (Hrsg.), The handbook ofschool psychology (4. Aufl., S. 434–460).Hoboken (N.J.): J. Wiley.

Riley-Tillman, T. C., Chafouleas, S. M., Christ,T. J., Briesch, A. M. & LeBel, T. J. (2009).The impact of wording and behavioralspecifity on accuracy of Direct BehaviorRating (DBRs). School Psychology Quar-terly, 24, 1–12.

Riley-Tillman, T. C., Chafouleas, S. M., Sassu,K. A., Chanese, J. A. M. & Glazer, A. D.(2008a). Examining the Agreement of Di-rect Behavior Ratings and Systematic Di-rect Observation Data for On-Task andDisruptive Behavior. Journal of PositiveBehavior Interventions, 10 (2), 136–143.

Riley-Tillman, T. C., Chafouleas, S. M., Sassu,K. A., Chanese, J. A. M. & Glazer, A. D.(2008b). Examining the Agreement of Di-rect Behavior Ratings and Systematic Di-rect Observation Data for On-Task andDisruptive Behavior. Journal of PositiveBehavior Interventions, 10 (2), 136–143.

Riley-Tillman, T. C., Christ, T. J., Chafouleas,S. M., Boice Mallach, C. H. & Briesch, A.(2011). The impact of observation durati-on on the accuracy of data obtained fromdirect behavior rating (DBR). Journal ofPositive Behavior Interventions, 13 (2),119–128. Verfügbar unterhttp://dx.doi.org/10.1177/1098300710361954

Schlientz, M. D., Riley-Tillman, T. C., Briesch,A. M., Walcott, C. M. & Chafouleas, S. M.(2009). The impact of training on the ac-curacy of Direct Behavior Ratings (DBR).School Psychology Quarterly, 24 (2), 73–83. Verfügbar unter http://dx.doi.org/10.1037/a0016255

Schmidt-Atzert, L. (2010a). Beobachtungsfeh-ler und Beobachtungsverzerrungen. In K.Westhoff, C. Hagemeister, M. Kersting, F.Lang, H. Moosbrugger, G. Reimann et al.(Hrsg.), Grundwissen für die berufsbezo-gene Eignungsbeurteilung nach DIN

98 Christian Huber& Christian Rietz

33430 (S. 74–78). Lengerich: Pabst Sci-ence Publishers.

Schmidt-Atzert, L. (2010b). Ratingverfahren.In K. Westhoff, C. Hagemeister, M. Kers-ting, F. Lang, H. Moosbrugger, G. Rei-mann et al. (Hrsg.), Grundwissen für dieberufsbezogene Eignungsbeurteilungnach DIN 33430 (S. 61–68). Lengerich:Pabst Science Publishers.

Schmidt-Atzert, L. (Hrsg.). (2012). Psychologi-sche Diagnostik (Springer-Lehrbuch, 5.,vollständig überarbeitete und erweiterteAuflage). Berlin, Heidelberg: SpringerBerlin Heidelberg.

Sliwka, A. (2010). Chancengerechtigkeit undExzellenz: Was das deutsche Schulsystemvon Kanada lernen kann. In K. Hurrel-mann, u.a, M. Speich & D. Deißner(Hrsg.), Transmission 03. Herkunft undChance. Wege zu mehr Bildungsgerech-tigkeit an Deutschlands Schulen (S. 38-58). Düsseldorf: Vodafone-StiftungDeutschland.

Steege, R. A., Davin, T. & Hathaway, M.(2001). Reliability and Accuracy of a Per-formance-Based Behavioral RecordingProcedure. School Psychology Review,30, 252–261.

Stemmler, G. (2010). Beobachtung: Begriffund Verständnis. In K. Westhoff, C. Hage-meister, M. Kersting, F. Lang, H. Moos-brugger, G. Reimann et al. (Hrsg.), Grund-wissen für die berufsbezogene Eignungs-beurteilung nach DIN 33430 (S. 37–42).Lengerich: Pabst Science Publishers.

Strathmann, A. M. & Klauer, K. J. (2010). Lern-verlaufsdiagnostik: Ein Ansatz zur länger-fristigen Lernfortschrittsmessung. Zeit-schrift für Entwicklungspsychologie undPädagogische Psychologie, 42 (2), 111–122.

Strathmann, A. & Klauer, K. J. (2012). Lernver-laufsdiagnostik - Mathematik für zweitebis vierte Klassen. LVD-M 2-4 (HogrefeSchultests). Göttingen [u.a.]: Hogrefe.

Volpe, R. J. & Briesch, A. M. (2012). Generali-zability and dependability of single-itemand multiple-item direct behavior ratingscales for engagement and disruptive be-

havior. School Psychology Review, 41(3), 246–261.

Walter, J. (2008). Curriculumbasiertes Messen(CBM) als lernprozessbegleitende Diag-nostik: Erste deutschsprachige Ergebnissezur Validität, Reliabilität und Verände-rungssensibilität eines robusten Indikatorszur Lernfortschrittsmessung beim Lesen.Heilpädagogische Forschung (2), 62–79.

Westhoff, K., Hagemeister, C., Kersting, M.,Lang, F., Moosbrugger, H., Reimann, G.et al. (Hrsg.). (2010). Grundwissen für dieberufsbezogene Eignungsbeurteilungnach DIN 33430. Lengerich: Pabst Sci-ence Publishers.

Wilbert, J. (2014). Instrumente zur Lernver-laufsmessung Gütekriterien und Auswer-tungsherausforderungen. In M. Hassel-horn, W. Schneider & U. Trautwein(Hrsg.), Lernverlaufsdiagnostik (Tests undTrends, Bd. 12, 1. Aufl, S. 281–308). Göt-tingen, Niedersachs: Hogrefe Verlag.

Wittchen, H.-U. & Hoyer, J. (Hrsg.). (2011).Klinische Psychologie & Psychotherapie(2., überarbeitete und erweiterte Auflage).Berlin: Springer-Verlag Berlin Heidelberg.

Ziegler, M. & Bühner, M. (Hrsg.). (2012).Grundlagen der Psychologischen Diag-nostik. Wiesbaden: VS Verlag für Sozial-wissenschaften.

Prof. Dr. Christian HuberUniversität PotsdamProfessur für InklusionspädagogikFörderschwerpunkt emotionale undsoziale EntwicklungKarl-Liebknecht-Straße 24 - 2514476 [email protected]

Erstmalig eingereicht: 14.07.2014Überarbeitung eingereicht: 23.09.2014Angenommen: 30.09.2014