Ultraschall in Med 2012; 33(7): E186-E190
DOI: 10.1055/s-0032-1325404
Original Article
© Georg Thieme Verlag KG Stuttgart · New York

Interobserver Variability and Diagnostic Performance in US Assessment of Thyroid Nodule According to Size

Interobserver-Variabilität und diagnostische Leistungsfähigkeit der sonografischen Beurteilung von Schilddrüsenknoten entsprechend der Größe
S. J. Park
1  Department of Radiology, Severance Hospital, Research Institute of Radiological Science, Yonsei University College of Medicine
,
S. H. Park
1  Department of Radiology, Severance Hospital, Research Institute of Radiological Science, Yonsei University College of Medicine
,
Y. J. Choi
2  Radiology, Kangbuk Samsung Hospital, Sungkyunkwan University School of Medicine
,
D. W. Kim
3  Radiology, Busan Paik Hospital, Inje University College of Medicine
,
E. J. Son
1  Department of Radiology, Severance Hospital, Research Institute of Radiological Science, Yonsei University College of Medicine
,
H. S. Lee
1  Department of Radiology, Severance Hospital, Research Institute of Radiological Science, Yonsei University College of Medicine
,
J. H. Yoon
4  Department of Radiology, CHA Bundang Medical Center, CHA University, School of Medicine
,
E.-K. Kim
1  Department of Radiology, Severance Hospital, Research Institute of Radiological Science, Yonsei University College of Medicine
,
H. J. Moon
1  Department of Radiology, Severance Hospital, Research Institute of Radiological Science, Yonsei University College of Medicine
,
J. Y. Kwak
1  Department of Radiology, Severance Hospital, Research Institute of Radiological Science, Yonsei University College of Medicine
› Author Affiliations
Further Information

Publication History

21 March 2012

01 September 2012

Publication Date:
29 October 2012 (eFirst)

Abstract

Purpose: To evaluate the interobserver variability for US assessments of thyroid nodules and analyze the diagnostic performances of US assessments in thyroid nodules according to nodule size.

Materials and Methods: This was an IRB-approved retrospective study with waiver of informed consent. A total of 400 surgically-confirmed thyroid nodules were included. Nodules were divided into 4 groups by size; group 1 (nodule size < 5 mm), group 2 (5 mm ≤ nodule size < 10 mm), group 3 (10 mm ≤ nodule size < 20 mm), and group 4 (nodule size ≥ 20 mm). Three experienced (7 – 10 years) radiologists retrospectively reviewed the US images. Agreement of each US descriptor and final US assessment, and diagnostic performances were calculated in each group and compared.

Results: Composition represented substantial or good agreement (k = 0.719 – 0.89). Margin showed the lowest agreement (k = 0.322 – 0.365). Individual kappa values for final assessment according to nodule size were as follows: group 1 (k = 0.674), group 2 (k = 0.596), group 3 (k = 0.674), and group 4 (k = 0.673). Specificity, PPV, and accuracy were significantly different among the groups with different size (p value < 0.05) and lowest in group 1. NPV, specificity, PPV and accuracy except PPV of observer 3 increased with nodule size (p < 0.05).

Conclusion: Interobserver agreements were relatively good (k = 0.637) in final US assessment regardless of nodule size in experienced radiologists. High false-positive rate was observed in US assessment in nodules less than 5 mm in maximum diameter.

Zusammenfassung

Ziel: Die Bewertung der Interobserver-Variabilität und die Analyse der diagnostischen Leistungsfähigkeit bei der US-Beurteilung von Schilddrüsenknoten entsprechend der Größe.

Material und Methoden: Es handelt sich um eine vom IRB genehmigte, retrospektive Studie mit Verzicht auf Einwilligung nach Aufklärung. Eingeschlossen wurden insgesamt 400 operativ bestätigte Schilddrüsenknoten. Die Knoten wurden je nach Größe in 4 Gruppen unterteilt: Gruppe 1 (Knotengröße < 5 mm), Gruppe 2 (Knotengröße ≥ 5 mm bis < 10 mm), Gruppe 3 (Knotengröße ≥ 10 mm bis < 20 mm) und Gruppe 4 (Knotengröße ≥ 20 mm). Drei Radiologen mit 7- bis 10-jähriger Erfahrung bewerteten retrospektiv die US-Bilder. Die Übereinstimmung jedes US-Deskriptors, die US-Endbewertung sowie die diagnostische Leistungsfähigkeit wurden jeder Gruppe berechnet und miteinander verglichen.

Ergebnisse: Die Struktur zeigte eine beachtliche bis gute Übereinstimmung (κ = 0,719 – 0,89). Die Begrenzung zeigte die niedrigste Übereinstimmung (κ = 0,322 – 0,365). Die individuellen Kappa-Werte der Endbewertung nach Knotengröße betrugen: In Gruppe 1 (κ = 0,674), in Gruppe 2 (κ = 0,596), in Gruppe 3 (κ = 0,674) und in Gruppe 4 (κ = 0,673). Spezifität, PVW und Genauigkeit zeigten signifikante Unterschiede zwischen den Gruppen unterschiedlicher Größe (p-Wert < 0,05) und waren jeweils in Gruppe 1 am niedrigsten. Abgesehen vom PVW bei Beobachter 3 stiegen NVW, Spezifität, PVW und Genauigkeit mit zunehmender Knotengröße (p < 0,05) an.

Schlussfolgerung: Die Interobserver-Übereinstimmungen erfahrener Radiologen waren unabhängig von der Knotengröße in der Endbewertung relativ gut (κ = 0,637). Eine hohe Rate an falsch positiven Ergebnissen wurde bei der sonografischen Beurteilung von Knoten unter 5 mm maximalem Durchmesser beobachtet.