Summary
The paper discusses the influence of outliers on the results of linear and canonical
discrimination used to assist medical diagnosis in chronic obturative lung disease.
The outliers have been detected by χ2-plots based on unweighted sample means and covariances or their weighted analogues
with Huber or Hampel weights. With Hampel weights outliers have been found different
from those with both remaining methods. After trimming the 10 percent of the most
distant individuals, the discrimination was done for the training sample collected
earlier (N′ = 305) and for the test sample (N″ = 53) with the functions obtained from
the training sample. The discrimination was performed for subsets of the most discriminative
variables. When the sample size was sufficiently large (training sample), the goodness
of reclassification was similar for classical functions and functions calculated after
trimming. For small samples they differ. For classification of the test data the results
obtained after trimming (especially with Hampel weights) are much better. The method
may be recommended to be used in the computerized respiratory diseases consulting
unit.
Der Beitrag diskutiert den Einfluß von Ausreißern auf die Resultate der linearen und
kanonischen Diskriminanzanalyse, wie sie üblicherweise zur medizinischen Diagnoseunterstützung
bei chronisch-obstruktiven Lungenkrankheiten angewandt werden. Die Ausreißer wurden
mit Hilfe von χ2-Diagrammen gefunden, die auf den ungewichteten Mittelwerten und Kovarianzen oder
ihren Analoga mit Huber- bzw. Hampel-Gewichtsfaktoren basierten. Mit Hampel-Gewichtsfaktoren
wurden andere Ausreißer entdeckt als mit den beiden anderen Methoden. Nach der Eliminierung
von zehn Prozent der am extremsten liegenden Individuen wurde die Diskriminanzanalyse
für die alte, früher gesammelte Trainings-Stichprobe (N′ = 305) und für die neue Teststichprobe
(N″ = 53) mit den Funktionen, die aus der „alten” Stichprobe gewonnen worden waren,
durchgeführt. Die Diskriminanzanalyse wurde für weitere Gruppen der Variablen mit
der größten Unterscheidungskraft durchgeführt. Bei großen Stichproben (den „alten”
Daten) haben wir mit oder ohne Eliminierung ähnliche Resultate bekommen; bei kleinen
Stichproben sind sie unterschiedlich. Für die Teststichprobe waren die Resultate der
Klassifikation, insbesondere bei Verwendung von Hampel-Gewichtsfaktoren, viel besser.
Die Methode wird für Computersysteme zur Beratung bei Krankheiten der Atemwege empfohlen.
Key-Words:
Outliers - χ
2-plots - Huber and Hampel Weights - Trimming - Discrimination
Schlüssel-Wörter:
Ausreißer - χ
2-Diagramme - Huber- und Hampel-Gewichtsfaktoren - Eliminierung - Diskriminanzanalyse