Zusammenfassung
Studienziel: Anhand von Einschulungsdaten aus vier Jahren wurde untersucht, ob sich die Urteilsmuster
innerhalb der Gruppe der untersuchenden Ärztinnen und Ärzte unterscheiden. Zwei Diagnosen
waren Gegenstand der Überprüfung: 1) Adipositas, weil für die Diagnose ein externes
Kriterium zur Überprüfung vorhanden war. Die ärztlichen Klassifikationen konnten mit
automatisch-korrekt erstellten Klassifikationen im Nachhinein verglichen werden. 2)
Sprachauffälligkeiten, weil sie die häufigste aller vergebener Diagnosen darstellt.
In diesem Fall gab es kein Außenkriterium, deshalb konnten die Unterschiede nur innerhalb
der Gruppe von Untersuchern betrachtet werden.
Material und Methoden: Es wurden die Einschulungsdaten der Stadt Hannover aus den Jahren 1998-2001 verwendet.
Insgesamt waren 14 Ärztinnen und Ärzte beteiligt, die Daten von zweien mussten wegen
zu geringer Fallzahlen ausgeschlossen werden. Die Analysen basieren auf den Daten
von 18.303 Schülerinnen und Schülern. Im Fall Adipositas wurden für die Ermittlung
der Variabilität ärztlicher Diagnosen und der Klassifikation nach einem untersucherunabhängigen
Kriterium Sensitivität und Spezifität berechnet. Die Vergleiche zu den nach Untersuchern
unterschiedlichen Chancen einer Diagnose wurden mittels logistischer Regression durchgeführt.
Ergebnisse: Die Sensitivität für das korrekte Auffinden eines auffälligen Körpergewichts oberhalb
der 75. Gewichtsperzentile lag über alle beobachteten Jahre hinweg bei 0,64. Für den
Bereich oberhalb der 97. Perzentile lag die Sensitivität bei 0,70. Über die vier beobachteten
Jahre gab es deutliche Unterschiede. Für die logistische Regression wurden die Befunde
der Ärztin/des Arztes mit den geringsten Unterschieden zu einem untersucherunabhängigen
Kriterium als Vergleichsstandard verwendet. Das Odds Ratio des Untersuchers mit der
größten Abweichung lag bei OR=0,08, die Variabilität innerhalb der Untersucher war
sehr groß. Für Sprachauffälligkeiten waren die Unterschiede bei großer Variabilität
innerhalb der Gruppe der Untersucher geringer, jedoch ebenfalls groß. Die größte Abweichung
lag hier bei OR=0,40.
Schlussfolgerungen: Bei Diagnosen aus Einschulungsuntersuchungen gibt es große untersucherabhängige Variabilitäten,
sodass die Daten für epidemiologische Fragestellungen nicht verwendet werden sollten.
Zur Verbesserung der Datenqualität sollten die beteiligten Ärztinnen und Ärzte im
Gebrauch der Untersuchungsinstrumentarien geschult werden, die Instruktionen sollten
klarer formuliert sein, um ihre Anwendung zu erleichtern.
Abstract
Aim: Data from school entry examinations were used for studying the variability of judgementsbetween
physicians performing the examinations. Two diagnoses were subject to examination:
1) Obesity, because an external criterion was available for this one. The medical
classifications were compared with automated classifications using an external criterion.
2) Language anomalies, because these are the most frequent diagnoses. No external
criterion had been available, thus differences within the group of examining physicians
were considered.
Material and Methods: Data from all school entry examinations performed in the city of Hannover between
1998 and 2001 were used. Altogether 14 physicians were involved, but due to low case
numbers the data of two had to be omitted. The analyses are based on 18,303 datasets.
For obesity the agreement rates between physicians’ and automatically generated diagnoses
were ascertained by calculating sensitivity and specificity. Comparisons of differences
between physicians with respect to chances of getting a diagnosis were performed using
logistic regression.
Results: The sensitivity of classifying body weights above the 75th percentile correctly was 0.64 over all years of observation. The respective sensitivity
of classifying children with body weights above the 97th percentile was 0.70. Considerable differences over the four years of observation
occurred. For performing logistic regressions, the diagnoses of the physician with
the smallest difference from an external criterion were used as standard of comparison.
The diagnoses of the physician with the largest difference yielded an OR=0.08. The
overall variability within the group of examining physicians was large. With respect
to language anomalies, although considerable, the within-group differences were smaller.
The largest odds ratio in this case was OR=0.40.
Conclusion: Diagnoses from school entry examinations vary according to the physicians involved.
Thus the data should not be used for epidemiological studies. In order to improve
data quality, the involved physicians should be extensively trained in using the instruments,
and their instructions should be formulated more clearly in order to facilitate their
application.
Schlüsselwörter
Schuleingangsuntersuchungen - Adipositas - Sprachstörungen - Beurteilervariabilität
Key words
school entry examinations - obesity - language anomalies - variability of judgements