Wissenschaftlichkeit in den Zeiten von Corona

Statistik 001 Die Zahl der positiven Corona-Tests hat keinerlei Aussagekraft. Epidemiologen müssen das wissen.
Bei diesem Beitrag handelt es sich um ein Blog aus der Freitag-Community

Neuinfektionen, positive Tests und Krankenstand

Vor etwa einer Woche hat die Bundeskanzlerin Angela Merkel die Losung ausgegeben, die Zeit für eine Verdopplung der Zahl der Covid-Neuinfektionen müsse sich auf zehn Tage zubewegen, um eine Überlastung des Gesundheitssystems zu vermeiden. Am vergangenen Donnerstag kolportierten Qualitätsmedien, dass diese Kennzahl für Deutschland insgesamt erreicht wurde. Wenn man dem Glauben schenkt und die weitere Entwicklung der täglichen Berichte des Robert-Koch-Instituts (RKI) anschaut, könnte man zu dem Schluss gelangen, diese Zielgröße sein inzwischen auch in allen einzelnen Bundesländern erreicht. Tatsächlich kennen wir die Zahl der täglichen Neuinfektionen nicht einmal annähernd.

Das RKI formuliert durchaus wissenschaftlich exakt. Es spricht von der Zahl der laborbestätigten COVID-19-Fälle. Da nur ein sehr kleiner Teil der Bevölkerung getestet wird, ist die tatsächliche Zahl der bisherigen COVID-19-Infektionen – und der täglichen Neuinfektionen - sehr viel höher als diese Zahl positiver Tests. Das ist keine schlechte Nachricht. Daraus folgt nämlich, dass die Letalität (Anzahl der Sterbefälle geteilt durch die Anzahl der Infektionen) sehr viel kleiner ist, als überall dargestellt wird. Desweiteren folgt daraus auch, dass einfache Vorhersagemodelle die zukünftige Belastung des Gesundheitssystems stark überschätzen.

Nun könnte man vielleicht annehmen, dass die Zahl der positiven Tests zwar keine uns bekannte Relation zur Zahl der Neuinfektionen aufweist, dass aber ihre zeitliche Entwicklung Aussagekraft hat. Tatsächlich scheinen das fast alle Politiker und Journalisten zu glauben. Es trifft aber nicht zu.

Nehmen wir an, in Deutschland würden täglich 12‘000 COVID-19-Tests durchgeführt. Die Gesamtzahl der Tests bis zum 20. März lässt eine etwas niedrigere Zahl vermuten. Nach 2 Monaten kann es dann nicht mehr als 732‘000 neue laborbestätigte COVID-19-Fälle geben. Das ist völlig unabhängig davon, wie die Anzahl der Neuinfektionen angestiegen ist. Wenn der Anstieg der Testzahlen nicht mit dem Anstieg der Neuinfektionen Schritt hält, wird der zeitliche Anstieg notwendigerweise unterschätzt.

Nehmen wir jetzt den umgekehrten Fall an. Die tatsächliche Zahl der täglichen Neuinfektionen sei nun konstant. Wir weiten die Testkapazitäten aus und verdoppeln jede Woche die Anzahl der Tests, wobei wir das Testmuster gleich lassen. Wir werden in guter Näherung eine Verdopplung der neuen laborbestätigten COVID-19-Fälle alle 7 Tage beobachten, obwohl die Anzahl der Neuinfektionen gar nicht steigt. Sobald die durchschnittliche Krankheitsdauer vergangen ist, steigt in diesem Fall auch die Belastung des Gesundheitssystems nicht mehr an. Wir befinden uns dann in einem stationären Zustand, in dem so viele Patienten geheilt entlassen werden oder versterben, wie neue Patienten eingeliefert werden.

Wenn die Tests repräsentativ für die Gesamtbevölkerung wären oder zumindest das Testmuster gleichbliebe, wäre die richtige Kenngröße nicht die Zahl der laborbestätigten COVID-19-Fälle, sondern der Anteil positiv ausgefallener Tests:

Zahl der positiven Tests von heute/Gesamtzahl der Tests von heute

Diese Kenngröße lässt sich aus den Berichten des RKI nicht berechnen, weil die Gesamtzahl der täglichen Tests nicht angegeben wird. Entweder wird sie nicht ans RKI gemeldet, was falsch wäre, oder im Bericht nicht als notwendige Bezugsgröße angegeben, was unwissenschaftlich ist.

Die Tests sind nicht repräsentativ, was auch der Grund ist, warum keinerlei zuverlässiger Rückschluss auf tatsächliche Infektionszahlen möglich ist. Ist wenigstens das Testmuster konstant, werden also die getesteten Personen immer nach den gleichen Kriterien ausgewählt? Dazu gibt es nicht sehr viel und keine sehr zuverlässige öffentlich zugängliche Information. Ich würde es allerdings nicht annehmen. Da aus Kapazitätsgründen weniger Personen getestet werden können, als getestet werden sollten, ist es sogar sinnvoll, das Testmuster immer wieder an die aktuellen Erkenntnisse anzupassen. Zum Beispiel hat man sich irgendwann entschlossen, Altenpfleger in die Kohorte der zu testenden Personen aufzunehmen. Solche Änderungen beeinflussen das Verhältnis zwischen der Zahl positiver Tests und der Zahl tatsächlicher Infektionen. Die oben eingeführte Kennzahl wird dadurch weniger aussagekräftig. Sie bleibt aber viel besser geeignet als die Zahl der laborbestätigten COVID-19-Fälle.

Will man die zeitliche Entwicklung solcher Kennzahlen für Prognosen über die Belastung des Gesundheitssystems verwenden, muss man noch etwas beachten. Man darf die Tageszahlen nicht einfach addieren. Man muss die Personen herausrechnen, die positiv getestet worden sind, dann aber entweder gesundet oder verstorben sind. Bei den in den Medien herumgereichten Vorhersagen wird das oft nicht getan oder die notwendige Dauer einer Intensivbehandlung wird deutlich zu hoch angesetzt.

Wie man testen müsste

Das gegenwärtige, sich zeitlich ändernde Testmuster führt nicht zu einer zuverlässigen Kennzahl, auf deren Basis man sinnvolle Entscheidungen treffen könnte. Es ist nötig, einen Teil der Testkapazität für repräsentative Tests einzusetzen. Das Design solcher Testreihen ist nicht unbedingt einfach, weil die Infektionsraten regional und gruppenbezogen verschieden sind. Aber selbst bei einem unvollkommenen Design erhielte man immer noch eine viel bessere Informationsgrundlage für Entscheidungen als mit dem jetzigen Testregime.

Es wird gern behauptet, man könne das nicht tun, weil man die vorhandene Testkapazität dringender für Krankenhauspersonal und Patienten bräuchte. Während es tatsächlich sinnvoll ist, Krankenhaus- und Pflegepersonal in regelmäßigen Abständen zu testen, bringen Tests an Patienten kaum Nutzen, so lange es keine spezifische COVID-19-Therapie gibt, sondern nur eine Symptombehandlung, die unabhängig von einer COVID-19-Diagnose ist. Selbst wenn es einmal eine spezifische Therapie geben wird, die für andere Diagnosen kontraindiziert wäre, muss man Patienten erst dann testen, wenn sie sich auf ein Krankheitsstadium zubewegen, ab dem es diese Therapie einsetzt. Dieses Stadium wird nur ein Teil der Verdachtsfälle erreichen.

Es geht dann also nur noch darum, wie man die Testkapazität zwischen repräsentativen Tests und Personen verteilt, die notwendig mit Personen aus Risikogruppen in Kontakt kommen. Das wiederum ist eine Frage dessen, wie häufig man Personen in bestimmten Funktionen testet. Bei der Abwägung ist zu berücksichtigen, dass das Gesundheitssystem gegenwärtig nicht überlastet ist, aller Voraussicht nach mindestens weitere drei Wochen lang nicht überlastet sein wird und sehr wahrscheinlich sehr viel länger nicht. Gleichzeitig braucht man für die Planung unbedingt zuverlässige Kennzahlen. Es ist höchste Zeit, ein Programm repräsentativer Tests zu starten. Damit – und nur damit – erhält man auch eine brauchbare Abschätzung der absoluten Infektionszahlen. Diese wiederum braucht man unbedingt für eine realistische Vorhersage von Epidemieszenarien.

Todesfälle durch oder mit COVID-19?

Darüber, dass die Zahl positiver COVID-19-Tests keine Aussagekraft hat, hat sich einer meiner Kollegen aus der Pharmazie bereits vor einigen Wochen mit mir ausgetauscht. Er stand wegen einer anderen Sache in meiner Tür, etwa drei Meter von mir entfernt. Inzwischen sind solche zufälligen Gespräche nicht mehr möglich, weil bei uns so gut wie alle Spitzenforscher, einschließlich der Pharmazeuten, ins „Home Office“ geschickt wurden. Vielleicht wird mir irgendwann einmal jemand erklären, welche rationale Risikoabwägung hinter dieser Entscheidung gesteckt haben soll.

Damals nahmen wir beide an, dass die Anzahl der „Todesfälle in Zusammenhang mit COVID-19-Erkrankungen” (Sprachregelung nach RKI) die einzig verbliebene brauchbare Kenngröße ist. Auf meinem jetzigen Kenntnisstand zweifle ich auch die Brauchbarkeit dieser Größe für eine realistische Einschätzung der Situation an. Bevor ich das näher erkläre, müssen wir uns allerdings einem anderen Problem zuwenden, nämlich der irreführenden Diskussion absoluter Zahlen ohne Bezugsgrößen in der Öffentlichkeit. Dazu betrachten wir einige sehr gut belegte Fakten zur deutschen Sterbestatistik.

Die Sterberate (Anteil der Menschen, die in einem Jahr sterben, an der Gesamtbevölkerung) lag 2019 in Deutschland bei 1,14%. Multipliziert man mit der Bevölkerungszahl (etwa 83 Millionen) erhält man 954‘900 Todesfälle pro Jahr (Statistisches Bundesamt). Teilt man unter Annahme einer Gleichverteilung über das Jahr durch 365, so erwartet man 2‘616 Sterbefälle pro Tag. Davon standen in den letzten drei Tagen jeweils etwa 170 mit COVID-19-Erkrankungen im Zusammenhang (6,5%). Vergleichen kann man das mit den 23‘385 jährlichen Sterbefällen durch Grippe und Lungenentzündungen und den weiteren 43‘056 jährlichen Sterbefällen durch Lungenerkrankungen außer Lungenkrebs (basierend auf den neuesten WHO-Daten). Addiert man die beiden Zahlen und nimmt wieder eine Gleichverteilung über das Jahr an, so entspricht das 182 Sterbefällen pro Tag durch solche Krankheiten vor der Corona-Pandemie.

Man könnte nun naiv annehmen, dass COVID-19 die Sterberate durch Lungenerkrankungen in etwa verdoppelt habe. Diese Annahme ist aus zwei Gründen falsch. Erstens ist die Zahl nicht über das Jahr gleichverteilt. Sie ist im März erhöht und man würde für 2020 möglicherweise sogar eine stärkere Erhöhung erwarten, nachdem der ganze Winter sehr mild, die erste Märzhälfte aber recht kalt war. Der zweite Grund versteckt sich hinter der Sprachregelung des RKI. Exakter gesagt handelt es sich bei der vom RKI verbreiteten Zahl um die Todesfälle, bei denen ein positiver COVID-19-Test vorliegt. Das sind mit Sicherheit mehr Fälle als diejenigen, bei denen die COVID-19-Infektion die Todesursache ist und ziemlich sicher sogar mehr Fälle als diejenigen, bei denen die COVID-19-Infektion zu einem deutlich früheren Todeszeitpunkt geführt hat. Schon die Reihenfolge von Infektionen mit einer bakteriellen Lungenentzündung und mit COVID-19 muss nicht immer klar sein.

Dazu, die Todesursache auf eine Infektion zurückzuführen, gehört deutlich mehr als der Nachweis dieser Infektion, gerade bei älteren Menschen, die häufig Komorbiditäten und nicht selten sogar Multimorbiditäten aufweisen. Unter anderem darauf hat der emeritierte langjährige Leiter des Instituts für Medizinische Mikrobiologie und Hygiene, Prof. em. Dr. med. Sucharit Bhakdi, in einem offenen Brief an die Bundeskanzlerin Angela Merkel hingewiesen.

Die Zahl der Todesfälle, bei denen COVID-19 als Todesursache diagnostiziert wurde, kennen wir nicht. Vermutlich ist sie sogar prinzipiell unbekannt. Der Aufwand zu ihrer Ermittlung wurde einfach nicht betrieben, obwohl er sehr viel kleiner wäre, als der Aufwand für andere COVID-19-bezogene Maßnahmen. Wir können daher nur Wahrscheinlichkeitserwägungen anstellen. Das Durchschnittsalter bei „Todesfällen im Zusammenhang mit COVID-19-Erkrankungen“ beträgt laut RKI 80 Jahre. Die Lebenserwartung in Deutschland beträgt derzeit für Jungen 78,5 Jahre und für Mädchen 83,3 Jahre. Etwa 66% der COVID-19-verbundenen Todesfälle betreffen Männer. Ohne den vollständigen Datensatz zu haben, kann man völlig sicher schließen, dass das mittlere Alter bei COVID-19-bezogenen Todesfällen und anderen Todesfällen sich nicht stark unterscheidet.

Klar ist auch, welche Zahlen man erheben müsste, um zu erfahren, ob COVID-19-Infektionen tatsächlich wesentlich stärker zur Sterbestatistik beitragen als Grippe und Lungenentzündungen ohne COVID-19-Bezug. Man benötigt die Zahlen für Grippe, für Lungenentzündungen und für andere Lungenkrankheiten außer Lungenkrebs für Februar, März und April der vergangenen drei Jahre und entsprechende Zahlen für 2020. Diese Zahlen können mit einem Aufwand erhoben werden, der um Größenordnungen geringer ist als der andere Aufwand, der derzeit wegen Corona-Infektionen betrieben wird. Man benötigt sie dringend, um einschätzen zu können, wie ernst das Problem überhaupt ist.

Warum so weit vom Mainstream?

Dass meine Blogposts weit ab vom Mainstream liegen, ist nicht neu. Es hat ja, ehrlich gesagt, auch gar keinen Sinn, einen Text zu schreiben, der im Mainstream liegt, sofern man nicht ein extrem guter Stilist ist. Immerhin schreibe ich hier aber als Wissenschaftler über Wissenschaft.

Nun muss auch der wissenschaftliche Mainstream nicht immer Recht haben, wie die Wissenschaftsgeschichte zeigt. In diesem Fall denke ich aber gar nicht, dass ich außerhalb des wissenschaftlichen Mainstreams liege. Ich liege nur außerhalb dessen, was in der Öffentlichkeit als wissenschaftlicher Mainstream wahrgenommen wird.

Nicht alle Zahlen, die ich oben zitiere, sind jedem Epidemiologen, Immunologen, Virologen oder forschenden Mediziner gegenwärtig. Die Grundzüge meiner Argumente allerdings sollten jedem Wissenschaftler klar sein, der auf einem dieser Gebiete ernsthaft und reflektiert forscht. Warum dringt das in der Öffentlichkeit nicht durch?

Hierfür gibt es drei Ursachen, eine Filterwirkung der Medien, die Interessen derjenigen Wissenschaftler, die sich öffentlich äußern und die Interessen derjenigen Wissenschaftler, die sich nicht öffentlich äußern.

Dass die heutige Journalistengeneration Ereignisse generell überdramatisiert, ist keine Neuigkeit. Dass einige wenige Leitmedien die Richtung vorgeben, der dann fast alle anderen folgen, auch nicht. Der Meinungskorridor war schon mal breiter (Frank-Walter Steinmeier). Im vorliegenden Fall bedeutet das, dass Journalisten vorzugsweise mit Wissenschaftlern reden, die einer solchen Dramatisierung Vorschub leisten und dass sie bevorzugt Ergebnisse erwähnen, die eine Dramatisierung stützen. Dadurch entsteht zwangsläufig ein verzerrtes Bild.

Wenn es sich nicht vermeiden lässt, auf andere Stimmen einzugehen, werden diese in den Artikeln zumeist abwertend kommentiert – obwohl doch offensichtlich sein sollte, dass den Journalisten die Kompetenz für derartige Kommentare fehlt. Man darf sogar annehmen, dass Druck auf Journalisten ausgeübt wird, abweichende Meinungen herunterzumachen, wie etwa im Fall des Radio Eins Interviews mit der ehemaligen Direktorin des Instituts für Medizinische Virologie der Universität Zürich, Prof. em. Dr. Karin Mölling, dem der abwertende Kommentar nachträglich beigefügt wurde.

Die etwas höhere Schule ist es, eine Abwertung dadurch zu erreichen, dass man andere Experten fragt. Im ZDF heißt es dann, Experte B habe die Darstellung des Experten A als verkürzt bezeichnet. Tatsächlich hatte das ZDF diese Woche in einem entsprechenden Kommentar nicht einmal einen Experten B gefunden, der dafür seinen Namen hergeben wollte. Es wurde anonym von „anderen Experten“ gesprochen, die man gefragt habe. Das Argument ist beliebig und kann immer vorgebracht werden, wenn ein komplexer Sachverhalt notwendigerweise kurz dargestellt werden muss. Es bedeutet nichts weiter als: Experte B mag die Schlussfolgerungen des Experten A nicht, kann aber dessen Argumente nicht widerlegen.

Kommen wir zu den Wissenschaftlern. die öffentlich einer Dramatisierung Vorschub leisten, obwohl sie es besser wissen müssen. Sie haben Partikularinteressen, die nicht unbedingt mit gesamtgesellschaftlichen Interessen übereinstimmen müssen. Man kann sich die Sache auch immer schönlügen und sich selbst vormachen, dass es letztlich doch im Interesse aller sei, zu dramatisieren. Man kann sich auch selbst einreden, dass man in der Öffentlichkeit mit völlig bedeutungslosen, aber anschaulichen Zahlen operieren muss, weil man den Politikern und den Massen die Komplexität ja ohnehin nicht erklären könne. Man könnte schon. Man müsste sogar.

Was ist mit den anderen, die sich selbst nie an dieser Dramatisierung und am Argumentieren mit bedeutungslosen Zahlen beteiligen würden, die vielleicht im vertraulichen Rahmen auch kommunizieren, dass ihre Einschätzung eine ganz andere ist, die damit aber nicht an die Öffentlichkeit gehen? Sie befürchten persönliche Nachteile, vermutlich nicht einmal zu Unrecht.

Deshalb sind es vor allem bereits pensionierte, gleichwohl teilweise noch aktive Wissenschaftler wie Bhakdi oder Mölling, die sich hervorwagen. Oder Leute wie Prof. Ioannidis von der Stanford University, die sich schon immer furchtlos geäußert haben und deren Reputation sogar gerade darauf beruht. Nachdem er in einem Beitrag auf Stat die Datenbasis der weitreichenden sozio-ökonomischen Entscheidungen in der Corona-Krise scharf kritisiert hatte, wurden in den Wikipedia-Artikel über ihn abwertende Sätze eingefügt und – besonders infam – der Satz „In addition, he has pioneered the field of meta-research (research on research), which is now a widely recognized scientific field.” geändert zu “In addition, he has pioneered the field of meta-research (research on research), which is not a widely recognized scientific field.” (Hervorhebung von mir). Der Wikipedia-Artikel zu Meta-Science selbst macht klar, dass die erste Version des Satzes zutraf. Ioannidis ist einer der meistzitierten Wissenschaftler weltweit.

Es gibt also gute Gründe, warum es der öffentlichen Diskussion über die Corona-Pandemie an Wissenschaftlichkeit und Rationalität fehlt.

Anmerkung: Die Benennung der Kennzahl als "Anteil positiv ausgefallener Tests" wurde am 7.4. morgens hinzugefügt.

Nachtrag (8.4., 21:20 Uhr)

Aus den Situationsberichten des Robert-Koch-Instituts und einer Vorab-Mitteilung zu Testzahlen lassen sich Daten gewinnen, mit denen ein Teil der Überlegungen veranschaulicht werden kann.

In meiner Abbildung sind links die laborbestätigten COVID-19-Fälle vom 4.3. bis 7.4. laut RKI als offene Kreise aufgetragen. Die rote gestrichelte Linie ist eine exponentiell ansteigende Funktion, die bis zum 23.3. an die Daten angepasst wurde. Versucht man es länger, so wird die Anpassung schlecht. Die Abbildung scheint zu bestätigen, was immer wieder öffentlich behauptet wurde: Es gab anfangs einen exponentiellen Anstieg der Neuinfektionen. Dieser Trend war spätestens ab dem 24.3. gebrochen, was man mit den am 12. März eingeführten Einschränkungen (sicher aber nicht mit den am 22. März eingeführten Einschränkungen) erklären könnte.

Wie schon oben beschrieben, ist in diesen Daten aber der gleichzeitige Anstieg der Zahl der Tests nicht berücksichtigt und man muss auf die Testzahl normieren, um die tatsächliche Kinetik des Prozesses abzuschätzen. Solche Daten existieren für den 29. Februar bis 29. März, sogar mit Abschätzung ihrer Unsicherheit in einer weniger prominent platzierten Vorabmitteilung des RKI (Seite 5 der PDF-Datei, Abb. 2). Diese Daten habe ich digitalisiert und auf der rechten Seite als offene Kreise dargestellt, ohne die durchgezogene Linie, die eher verwirrt.

Hier gibt es von Anfang an keinen exponentiellen Anstieg. Er ist anfangs bestenfalls linear, flacht aber bald sogar gegenüber einem linearen Anstieg ab, wie die angepasste blaue Kurve zeigt, die hier ein Polynom 2. Grades (Teil einer Parabel) ist. Eine lineare Anpassung ist deutlich schlechter, ein Polynom 3. Grades sieht sehr ähnlich aus. Die Streuung der Punkte ist relativ groß. Dass die Kurve irgendwo infolge von Einschränkungen stark abknickt, ist nicht zu bemerken. Allerdings sind in diesem Zeitbereich Effekte der Maßnahmen vom 22. März auch noch kaum zu erwarten.

Die vollen schwarzen Kreise auf der rechten Seite sind Daten, die um die "geschätzten" Genesungen (und die wesentlich weniger zahlreichen Todesfälle) korrigiert sind, die das RKI seit dem 30. März veröffentlicht. Es handelt sich hier bis zum 6. April nur um eine untere Grenze der Zahl der tatsächlich genesenen Personen, wie man aus der Erklärung in den Situationsberichten erfährt. Es wurden zunächst nur genesene Personen aufgenommen, bei denen der Erkrankungsbeginn bekannt war und 14 Tage vor dem Stichdatum lag. Seit heute werden nun alle Fälle erfasst. Das macht einen deutlich sichtbaren Unterschied, worauf das RKI heute auch hinweist. Man sieht, dass bereits diese Korrektur, ohne Normierung auf die Testzahlen, zu einem deutlich flacheren Kurvenverlauf führt.

Die normierten Daten muss man dagegen nicht korrigieren. Sie geben eine Momentaufnahme des aktuellen Anteils infizierter Personen in der Testgruppe. Allerdings bricht dieser Datensatz am 20. März ab. Deshalb kann ich hier nur mit einer Extrapolation arbeiten.

Dazu habe ich das Polynom 2. Grades bis zum heutigen Tag extrapoliert (gestrichelte magentafarbene Linie). Die Kurve der positiven Tests (offene Kreise links) flacht in diesen Tagen auch deutlich ab. Die Testkapazität war in der 13. Kalenderwoche nur zu 49% ausgenutzt, so dass auch ein weiterer Anstieg der Testzahlen wahrscheinlich ist. Somit weicht die Extrapolation vermutlich nicht sehr stark von der Realität ab. Sie legt nahe, dass der Anteil positiver Tests inzwischen nahezu sein Maximum erreicht hat.

Natürlich ist diese Modellierung sehr grob - sie ist aber nicht annähernd so grob wie die allgemein übliche Betrachtung der Kurve der positiven COVID-19-Tests.

18:44 05.04.2020
Dieser Beitrag gibt die Meinung des Autors wieder, nicht notwendigerweise die der Redaktion des Freitag.
Geschrieben von

Gunnar Jeschke

Naturwissenschaftler, in der DDR aufgewachsen, gelebt in Schwarzheide, Dresden, Wako-shi (Japan), Bonn, Mainz, Konstanz und Zürich.
Gunnar Jeschke

Kommentare 93

Der Kommentar wurde versteckt