Wer zählt die Toten?

Covid-19 Im Monat Juli gab es in der Schweiz laut Bundesamt für Gesundheit 22 Todesfälle im Zusammenhang mit Covid-19 – oder aber 14.
Bei diesem Beitrag handelt es sich um ein Blog aus der Freitag-Community

Die Zahl der Todesfälle ist eine Schlüsselgröße, wenn man die Gefährlichkeit von Covid-19 einschätzen will – sowohl, wenn man die Dinge rational als auch wenn man sie massenpsychologisch betrachtet. Nach mehr als drei Monaten Erfahrung mit der Pandemie ist die Definition stabil, nach der eine Gesundheitsbehörde die Zuordnung von Todesfällen zu Covid-19 vornimmt. Die Gesellschaft setzt erhebliche Ressourcen für den Umgang mit der Epidemie ein. Politiker ziehen daraus eine Rechtfertigung für eine Änderung des Gesellschaftsvertrags, insbesondere was einen vormundschaftlichen Umgang mit der Bevölkerung betrifft. Angesichts all dessen finde ich es erheblich verstörend, dass die Zahl dieser Todesfälle im Juli 2020 in der Schweiz nur mit einer Unsicherheit bekannt zu sein scheint, die von der gleichen Größenordnung ist, wie die Zahl selbst.

Im Folgenden gehe ich den Fragen nach, welche der beiden im Vorspann genannten Zahlen richtig ist und welche davon in internationale Statistiken eingeht.

Methodik

Seit dem 6. Juli vergleiche ich kontinuierlich die Daten zu Covid-19, die von den Schweizer Kantonen, dem Schweizer Bundesamt für Gesundheit (BAG) und international auf EU Open Data veröffentlicht werden. Ich tue das, weil ich bei Recherchen für einen früheren Blogbeitrag Diskrepanzen zwischen diesen Quellen für den Zeitverlauf der Zahl positiver SARS-Cov2-Tests gefunden hatte. Bei den Daten des BAG beobachte ich rückwirkend bis zum 25. Juni zwei Datenquellen, die täglichen Situationsberichte, die auch archiviert werden und die Tabellen, die als Daten des Situationsberichts im Excel-Format zur Verfügung stehen. Die Links befinden sich auf der gleichen Homepage des BAG direkt untereinander. Bei den Tagesberichten gehe ich nur bis zum 25. Juni zurück, weil an diesem Tag ein neues Format eingeführt wurde, das mehr Daten zur Verfügung stellt und bedingt maschinenlesbar ist.

Meine täglichen Auswertungen erstelle ich mit einem Berichtgenerator in Matlab, der alle Daten automatisch herunterlädt, analysiert und grafisch darstellt. Aus den täglichen Situationsberichten, die als PDF-Dateien vorliegen, extrahiere ich mit Ghostscript den Text und aus diesem die Daten. Obwohl der Situationsbericht jeden Tag die gleiche Form hat, wird er offensichtlich von Hand erstellt, denn er enthält immer mal wieder Tippfehler oder inkonsistente Zahlenformate. Für die einfach zu analysierenden Probleme habe ich inzwischen automatische Korrekturen. In Einzelfällen habe ich Sonderbehandlungen für einen gewissen Tagesbericht im Programm. Eventuelle Formatprobleme, die mein Programm übersehen würde, erklären die oben erwähnte Diskrepanz allerdings nicht. Ich habe für den Monat Juli alle Todesfallzahlen aus den Situationsberichten noch einmal von Hand eingetippt und hinterher mit den Ergebnissen der automatisierten Extraktion verglichen. Sie sind identisch. Nicht identisch sind hingegen die Daten in den Situationsberichten mit den „Daten des Situationsberichts“, wie die Abbildung zeigt.

Die Diskrepanzen und mögliche Ursachen

Bis etwa zur Monatsmitte sind die Unterschiede zwischen den beiden Datensätzen des BAG nicht dramatisch (linke Grafik in der Abbildung). Zwar ist erstaunlich, dass die Datensätze nicht nach spätestens zwei Tagen in der Summe übereinstimmen, aber der Unterschied ist nie größer als ein Todesfall. Das ändert sich in der zweiten Monatshälfte. Während die Daten des Tabellenwerks (grüne Punkte) kaum einen signifikanten Trend zeigen (1.-15. Juli: 5 Todesfälle, 17.-31. Juli: 8 Todesfälle), weisen diejenigen der täglichen Situationsberichte (rote Punkte) einen deutlichen Trend auf (1.-15. Juli: 4 Todesfälle, 17.-31. Juli: 18 Todesfälle).

Es stellt sich die Frage, welche Daten das BAG selbst als die gültigen ansieht. Das ist anhand der Tabelle auf der gleichen Homepage des BAG eindeutig. Die Zahl der laborbestätigten Infektionen stimmt exakt mit derjenigen im Tabellenwerk überein, diejenige der Todesfälle ist um einen Fall höher als im Tabellenwerk. Nur bei den Hospitalisationen gibt es eine größere Diskrepanz zwischen Tabellenwerk (4195) und der Tabelle auf der Homepage des BAG (4347). Dass die Daten des Tabellenwerks (grüne Linie in der rechten Grafik der Abbildung) die gültigen sind, passt auch dazu, dass sie nie über längere Zeit oder sehr stark von den durch die Kantone (und das Fürstentum Liechtenstein) gemeldeten Daten (blaue Linie) abweichen. Die Daten, die sich in internationalen Tabellen wiederfinden (schwarze Linie in der rechten Grafik der Abbildung), folgen hingegen den Daten der täglichen Situationsberichte (rot).

Im Prinzip kann es passieren, dass man Daten nachträglich konsolidieren muss. Das ist besser, als Daten stehen zu lassen, die als falsch erkannt wurden. Wenn es sich nur um die auf einen Fall korrigierten ursprünglich sechs gemeldeten Todesfälle vom 24. Juli handeln würde, wäre ein einmaliges Versehen die wahrscheinlichste Erklärung. Das Problem scheint aber seit der Monatsmitte wiederholt aufzutreten. Dafür habe ich keine plausible Erklärung.

Falsche Daten – Falsche Trends

Die Diskrepanz ist kein Kavaliersdelikt. Angenommen jemand wollte aus den Daten der BAG-Situationsberichte (oder den damit fast übereinstimmenden internationalen Daten einen Trend ableiten). Wie die einfache lineare Anpassung in der linken Grafik der Abbildung zeigt, erhielte diese Person einen deutlich ansteigenden Trend. Tut eine andere Person das Gleiche mit den zuverlässigeren Daten des BAG-Tabellenwerks oder der Kantone, dann ist der Trend schwach und angesichts der statistischen Unsicherheit kleiner Fallzahlen nicht signifikant.

Nun könnte man einwenden, dass ein linearer Trend ohnehin ein sehr naives Modell ist. Menschen, die ohne genaueres Nachdenken Daten betrachteten, machen aber unterbewusst genau das: Sie unterstellen einen linearen Trend.

Die beiden verschiedenen Datensätze des BAG ergeben auch verschiedene „case fatality rates“ (CFR), also Anteile Verstorbener unter den Personen mit positiven SARS-Cov2-Tests. Da ich für die Schweiz eine mittlere Verzögerung von 9 Tagen zwischen positiven Tests und Todesfällen annehmen sollte, habe ich die Testzahlen vom 22. bis 24. Juni manuell aus den Situationsberichten entnommen, die damals noch ein anderes Format hatten. Mit den gültigen Daten des Tabellenwerks des BAG erhalte ich so für den Juli eine CFR von 0,51%, mit den Daten aus den täglichen Situationsberichten hingegen eine von 0,84%. Die CFR ist eine obere Grenze für die IFR (infection fatality rate), also die Zahl von Todesfällen je tatsächlicher Infektion, sofern die Anzahl falsch positiver Tests in der Statistik nicht höher ist, als diejenige nicht erkannter Infektionen. Sofern die Dunkelziffer nicht erkannter Infektionen also nicht gerade negativ ist, sollte die IFR im Juli in der Schweiz unter 0,51% gelegen haben. Mit den Daten der täglichen Situationsberichte überschätzt man diese obere Grenze für die IFR um fast zwei Drittel.

Zum Schluss sollte ich vielleicht noch den ungewöhnlichen Titel dieses Blogbeitrags erklären. Es ist eine Zeile aus dem Lied „Ying und Yan“ von Rainald Grebe. Im Songtext geht es um unsere Zeit, in der das Wissen von den Zusammenhängen verlorengeht. Damit er wenigstens in der Wissenschaft nicht verloren geht, müssen sich die öffentlich bestallten Hüter der Daten schon etwas mehr Mühe geben.

21:49 02.08.2020
Dieser Beitrag gibt die Meinung des Autors wieder, nicht notwendigerweise die der Redaktion des Freitag.
Geschrieben von

Gunnar Jeschke

Naturwissenschaftler, in der DDR aufgewachsen, gelebt in Schwarzheide, Dresden, Wako-shi (Japan), Bonn, Mainz, Konstanz und Zürich.
Gunnar Jeschke

Kommentare 2