Methods Inf Med 1979; 18(04): 222-227
DOI: 10.1055/s-0038-1636666
Original Article
Schattauer GmbH

On the Optimum Choice of Categories for the Classification of Biomedical Data Patterns

ZUR OPTIMALEN WAHL VON KLASSENEINTEILUNGEN ZUR KLASSIFIZIERUNG BIOMEDIZINISCHER DATEN
C. F. Hess
1   From the Institute of Physiology, Johannes Gutenberg-University Mainz. Fed. Rep. of Germany
,
K. Brodda
1   From the Institute of Physiology, Johannes Gutenberg-University Mainz. Fed. Rep. of Germany
› Author Affiliations
Further Information

Publication History

Publication Date:
19 February 2018 (online)

The optimum choice of categories for pattern recognition problems is on the one hand determined by the requirement of a low rate of misclassification. On the other hand, the classification of a pattern should result in an information gain as high as possible. A criterion for an optimum choice of categories which is the best compromise between the demands mentioned above is worked out. The Bayes rule is used as a decision function. The alteration of the Bayes risk as indicator for the rate of malrecognition is examined for different choice of categories concerning the very same classification problem. As the calculation of the Bayes risk is commonly difficult, an estimation using the Bhattacharyya coefficient is given. The information content of a choice of categories is defined using Shannon’s information measure. The alteration of the information contents is analyzed by putting together certain categories, i.e. a coarser choice of categories. With the aid of the relative information loss and the relative reduction of the Bayes risk coefficient, a criterion on the goodness of a choice of categories can be given. The criterion also serves as an optimum choice of classes. The extension of the latter criterion to a generalized decision rule is possible.

Die optimale Wahl einer Klasseneinteilung für Probleme der Mustererkenuung mit mehreren Entscheidungsmöglichkeiten wird einerseits durch die Forderung nach einer kleinen Fehlerrate bei der Klassifikation bestimmt; andererseits soll die Einordnung in eine Klasse zu einem möglichst großen Informationsgewinn führen. Es wird ein Kriterium für eine optimale Wahl der Klassen erarbeitet, das einen Kompromiß zwischen diesen beiden, z.T. einander widersprechenden Forderungen darstellt. Als Entscheidungsfunktion wird die Bayes-Regel benutzt. Die Veränderung des Bayes-Risikos bei anderer Wahl der Klassen für dasselbe Klassifikationsproblem wird, da diese Größe schwer zu berechnen ist, mit Hilfe des Bhattacharyya-Koeffizienten abgeschätzt. Der Informationsgehalt einer Klasseneinteilung wird mit Hilfe des Shannonschen Informationsmaßes definiert und die Änderung des Informationsgehalts bei Zusammenlegung von Klassen, d. h. bei Wahl einer gröberen Klasseneinteilung-berechnet. Mit Hilfe der relativen Veränderungen von Informationsgehalt und Risiko läßt sich ein Kriterium für die Güte und daraus abgeleitet ein solches für die optimale Wahl einer Klasseneinteilung angeben. Das Kriterium läßt sich zu einer verallgemeinerten Entscheidungsregel erweitern.