Methods Inf Med 1979; 18(04): 228-234
DOI: 10.1055/s-0038-1636470
Original Article
Schattauer GmbH

Correction of Misspellings and Typographical Errors in a Free-Text Medical English Information Storage and Retrieval System

KORREKTUR VON ORTHOGRAPHISCHEN UND SCHREIBFEHLERN IN EINEM ENGLISCHSPRACHIGEN INFORMATIONS-, SPEICHERUNGS- UND RETRIEVAL-SYSTEM MEDIZINISCHER TEXTE
D. M. Joseph
1   From the Department of Pathology, University of Illinois, School of Medicine, Chicago, Ill
,
Ruth L. Wong
1   From the Department of Pathology, University of Illinois, School of Medicine, Chicago, Ill
› Author Affiliations
Further Information

Publication History

Publication Date:
19 February 2018 (online)

The errors studied are misspellings and typographical errors made by the physician house staff, surgical pathologists, and secretary/typists of a large teaching hospital. The 6,019 errors studies were encountered in the compilation of a LEXICON now containing 24,135 medical and non-medical terms (including errors) from Tissue Examination Request Forms and Surgical Pathology Reports. An automated error correction algorithm was sought to reduce the tedious task of manual encoding of errors, and eliminate the need for storing errors occupying 24.9% of the LEXICON storage space. The errors were classified into 23 types, and it was found that 84.2% of the errors were in the 11 first order categories.

Existing error correction algorithms were analyzed with respect to possible application to our medical sample. Two were selected for experimentation, the Baskin-Selfridge algorithm and SOUNDEX. Results showed that Baskin-Selfridge worked quite well, but was too slow to be applied singularly. SOUNDEX was reasonable in speed, but had too many mismatches to be applied singularly in a non-interactive application. SOUNDEX was modified phonologically and with respect to code length in various ways and some experimental data showed improvements.

The optimal design for the medical LEXICON sample appears to be a two-step process. The modified version of SOUNDEX will quickly select the most likely corrections for the error (experimental average is 2.38 choices/error). Then the Baskin-Selfridge will decide which, if any, is the actual correct form of the error. By only considering a very small number of choices, the time required for the Baskin-Selfridge algorithm becomes trivial.

On the basis of experimental results, it is estimated that this combination will reduce manual encoding of errors by 60—70% and reduce the storage required for the LEXICON by approximately 15%.

Die vorliegende Arbeit befaßt sich mit Schreibfehlern, die vom Ärztestab, den Pathologen und den Sekretärinnen und Schreibkräften eines großen Lehrkrankenhauses gemacht wurden. Die 6019 untersuchten Fehler wurden bei der Erstellung eines macliineninternen Lexikons festgestellt, das jetzt 24135 medizinische und nichtmedizinische Begriffe (einschließlich der Fehler) aus Formularen zur Anforderung von Gewebeuntersuchungen und Berichten von klinischen Pathologen enthält. Ein automatischer Fehlerkorrektur-Algorithmus soll die mühsame Aufgabe der manuellen Verschlüsselung fehlerhafter Begriffe erleichtern und ihre Speicherung im Lexikon, in dem sie bereits 24,9% cles Speicherraums besetzen, unnötig machen. Die Fehler wurden in 23 Fehlertypen gegliedert; es wurde festgestellt, daß 84,2% der Fehler in den 11 Kategorien erster Ordnung auftraten.

Bestehende Fehlerkorrekturalgorithmen wurden im Hinblick auf eine mögliche Anwendung auf die eigene Stichprobe analysiert. Zwei davon wurden praktisch erprobt, der Baskin-Selfridge-Algorithmus und SOUNDEX. Die Ergebnisse zeigen, daß Baskin-Selfridge zwar gut funktionierte, aber zu langsam war, um allein angewandt zu werden. SOUNDEX war akzeptabel in bezug auf Geschwindigkeit, hatte aber zuviele falsche Zuordnungen, um einzeln nicht-interaktiv angewandt zu werden. SOUNDEX wurde phonologisch und in bezug auf die Schlüssellänge auf verschiedene Art modifiziert; einige dieser Versuchsergebnisse zeigten Verbesserungen.

Das beste Verfahren für die Stichprobe aus dem medizinischen Lexikon scheint ein Zweistufenprozeß zu sein. Die modifizierte Version von SOUNDEX ermittelt rasch die wahrscheinlichsten KorrekturVorschläge für clen Fehler (im Durchschnitt ergaben sich 2,38 Möglichkeiten/Fehler). Dann entscheidet der Baskin-Selfridge-Algorithmus, welches die tatsächlich richtige Form cles fehlerhaften Begriffs ist. Wenn man nur eine sehr ldeine Anzahl von Möglichkeiten zuläßt, wird clie für den Baskin-Selfriclge-Algorithmus beanspruchte Zeit unerheblich.

Auf der Grundlage cler Versuchsergebnisse wird geschätzt, claß diese Kombination das manuelle Verschlüsseln von Fehlern um 60-70% reduzieren kann und cler für clas Lexikon beanspruchte Speicherraum um etwa 15% gesenkt werden kann.

 
  • References

  • 1 ALBERGA C. N.. String Similarity and Misspellings. Comm. Ass. comput. Maehin 10 ( 1967; ) 302-313.
  • 2 ASH R.. Information Theory. ( New York: John Wiley & Sons, Inc.,; 1967. ).
  • 3 ATTAB R., CHOUEKA Y., DEBSHOWITZ N., FBAENKEL A. S.. KEDMA – Linguistic Tools for Retrieval Systems. J. Ass. comput. Maehin 25 ( 1978; ) 52-66.
  • 4 BENNETT Jr. W. R.. Scientific and Engineering ProblemSolving with the Computer. ( Englewood Cliff, N. J.: Prentice-Hall, Inc.; 1976. ).
  • 5 BOURNE Ch. P.. Frequency and Impact of Spelling Errors in Bibliographic Data Bases. Inform. Proc. Managm 13 ( 1977; ) 1-12.
  • 6 CHERRY C.. On Human Communication. ( Cambridge, Mass.: MIT Press; 1957. ).
  • 7 DAMERATJ F. J.. A Technique for Computer Detection and Correction of Spelling Errors. Comm. Ass. comput. Maehin 7 ( 1964; ) 171-176.
  • 8 DAVIDSON L.. Retrieval of Misspelled Names in an Airline Passenger Record System. Comm. Ass. comput. Maehin 5 ( 1962; ) 169-171.
  • 9 FENICHEL R. R., BARNETT G. O.. An Application-independent Subsystem for Free-Text Analysis. Comput. biomed. Res 9 ( 1976; ) 159-167.
  • 10 FROMKIN V., RODMAN R.. An Introduction to Language. ( New York: Holt, Rhinehart, and Winston; 1978. ).
  • 11 GAYNON P. S., WONG R. L.. A Retrieval System for a Library of Pathology Reports, Slides, and Kodachromes. Meth. Inform. Med 11 ( 1972; ) 152-162.
  • 12 GOODMAN E. S.. The Psycholinguistic Nature of the Reading Process. ( Detroit: Wayne State University Press; 1968. ).
  • 13 GELB I. J.. A Study of Writing. ( Chicago: The University of Chicago Press; 1963. ).
  • 14 GREENFIELD R. H.. An Experiment to Measure the Performances of Phonetic Key Compression Retrieval Schemes. Meth. Inform. Med 16 ( 1977; ) 230-233.
  • 15 BOYLE W. G.. Error Detection in Mechanized Classification Systems. Inform. Proc. Managm 12 ( 1976; ) 333-337.
  • 16 JELOVSEK F., HAMMOND W.. Formal Error Rate in a Computerized Obstetric Medical Record. Meth. Inform. Med 17 ( 1978; ) 151-157.
  • 17 JOHNSON I. C., TSAO S. L., BBOSS D. J., SHEDB D. P.. Natural Language and a Computer System for Medical Research. Meth. Inform. Med. IS ( 1979; ) 16-16.
  • 18 KNUTH D. E.. The Art of Computer Programming, Vol 3. pp. 391-392. ( Reading, Mass.: Addison-Wesley; 1973. ).
  • 19 KRONMAL R. A., DAVIS K., FISCHER L. D.. et al. Data Management for a Large Collaborative Clinical Trial. Comput. biomed. Res 11 ( 1978; ) 553-566.
  • 20 User Language Reference Manual. ( Cambridge, Mass.: Computer Corporation of America; 1977. ).
  • 21 MASTERS H. V.. A Study of Spelling Errors. Ph. D. Thesis, Univ. of Iowa. 1947 (Unpublished – quoted in [1]).
  • 22 MILLER G. A.. Language and Communication. ( New York: McGraw-Hill Book Company, Inc.,; 1951. ).
  • 23 MORGAN II L.. Spelling Correction in Systems Programs. Comm. Ass. comput. Maehin 13 ( 1970; ) 90-94.
  • 24 PEI M.. Glossary of Linguistic Terminology. ( Garden City, N. J.: Anchor Books; 1966. ).
  • 25 PLATT R. C., WONG R. L., LANTNER K. W., GAYNON P. S.. POLARS : a Pathology On-Line Logging and Reporting System. Comput. biomed. Res 7 ( 1974; ) 1-17.
  • 26 RADA R., EVANS L.. Automated Problem Encoding System for Ambulatory Care. Comput. biomed. Res 12 ( 1979; ) 131-139.
  • 27 RUSSELL R. C.. U. S. Patent 1,261,167. (April 2. 1918).
  • 28 RUSSELL R. C.. U. S. Patent 1,435,663. (November 14, 1922).
  • 29 SHANNON C. E.. A Mathematical Theory of Communication. Bell Syst. Teehn. J 27 ( 1948; ) 379-423.
  • 30 SHANNON C. E.. Prediction and Entropy of Printed English. Bell Syst. Teehn. J 30 ( 1951; ) 50-64.
  • 31 SPATZ Ch., JOHNSTON J. O.. Basic Statistics: Tales of Distributions. ( Monterey, Calif.: Brooks/Cole Publishing Company; 1976. ).
  • 32 THOMAS CH. K.. Phonetics of American English. ( New York: The Ronald Press Company; 1947. ).
  • 33 ZIPF G. K.. The Psycho-Biology of Language : An Introduction to Dynamic Philology. ( Cambridge, Mass.: MIT Press; 1935. ).