Sind Covid-19-Epidemieverläufe vorhersagbar?

Corona-Krise Ab einem gewissen Zeitpunkt lassen sich Fallzahldaten stabil extrapolieren.
Bei diesem Beitrag handelt es sich um ein Blog aus der Freitag-Community

In der vergangenen Woche habe ich ein einfaches Modell für den Zeitverlauf von Covid-19-Epidemiewellen vorgestellt. Die Zahl positiver Tests wie auch die Zahl der Todesfälle steigen mit einer logistischen Funktion an. Entweder schon bevor diese Funktion ein Plateau erreicht hat oder danach geht der Zeitverlauf in einen exponentiellen Abfall über. Ich hatte das Modell direkt an die täglichen Fallzahlen angepasst, um die fünf Modellparameter zu bestimmen, von denen einer nur eine Verschiebung auf der Zeitachse ist, während drei die Form und damit die Länge der Epidemiewelle charakterisieren und einer deren Höhe. Inzwischen habe ich bemerkt, dass eine Anpassung an die kumulativen Fallzahlen etwas robuster ist, was aber nichts am Modell ändert.

Es stellt sich nun die Frage, ob das Modell auch Vorhersagekraft besitzt. Wir reden hier nicht von einer Vorhersage auf Basis erster Prinzipien, ohne bereits Daten zu haben. So etwas kann für Epidemiewellen weder jetzt noch in absehbarer Zeit jemand leisten. Wir reden nur von Extrapolation, also von der Vorhersage zukünftiger Datenpunkte oder von Gesamtcharakteristika der Epidemiewelle.

Angenommen also, das Modell passt die Daten bis heute gut an. Da alle Parameter bekannt sind, kann ich die Kurve auch für die nächsten Wochen berechnen. Werden die tatsächlichen Datenpunkte nahe an dieser berechneten Kurve liegen? Wird ihre Summe, also etwa die Gesamtzahl der Todesfälle mit einer brauchbaren Genauigkeit vorhergesagt?

Man könnte denken, dass sich das nicht feststellen lässt, weil wir die Zukunft nicht kennen. Wir kennen aber die Zukunft der Vergangenheit. Wir können also die Daten bis zum 14. Mai verwenden, daraus eine Vorhersage ableiten und dann nachsehen, ob diese bis zum 13. Juni stimmt und wie gut. Das ist in Abbildung 1 für die täglichen und kumulativen Sterbezahlen in Deutschland gezeigt. Mit bloßem Auge kann man in den stark streuenden täglichen Zahlen (linkes Diagramm) kaum sehen, ob es irgendeine bedeutende Abweichung der Extrapolation (rote Linie) gibt. Schaut man genau hin, so scheinen mehr Punkte unterhalb der roten Linie zu liegen als darüber. Diese Abweichung sieht man in den kumulativen Zahlen besser (rechtes Diagramm). Bedenkt man allerdings, dass wir hier einen ganzen Monat vorhergesagt haben, wirkt die Abweichung nicht so dramatisch (versuchen Sie mal, das Wetter über einen Monat vorherzusagen oder auch nur die mittlere Temperatur oder Niederschlagsmenge).

Es stellt sich die Frage, wie generell diese Vorhersagegenauigkeit ist. Wir könnten das im Prinzip an den Daten von 206 Ländern prüfen, die auf dem Offenen Datenportal der EU verfügbar sind. Wie schon in der vorigen Woche bemerkt, sind aber für viele Länder die Fallzahlen zu niedrig und für die meisten die Sterbefallzahlen, um ein Modell anzupassen. Hinzu kommt, dass in den Fällen, in denen der Epidemiehöhepunkt noch nicht überschritten ist, bestenfalls Parameter der logistischen Funktion für den Anstieg ermittelt werden können. Berücksichtigt man all das, so lässt sich die Vorhersagegenauigkeit bei der Zahl positiver SARS-Cov2-Tests für 24 Länder für den Anstieg und für 13 Länder für die gesamte Kurve prüfen. Luxemburg verhält sich dabei auffällig, aber darauf gehe ich nächste Woche ein. Die Vorhersagegenauigkeit ist für die gesamte Kurve in den meisten Ländern gut, sobald nach dem Höhepunkt noch eine Zeit vergangen ist, die der Zerfallszeitkonstante entspricht. In Italien konvergieren die Daten erst nach 1,8 Zerfallszeitkonstanten.

Ich möchte hier nicht weiter auf den Verlauf der Zahl positiver Tests eingehen. Ich habe schon mehrfach diskutiert, warum der nicht viel aussagt und werde in der nächsten Woche noch einmal zeigen, dass insbesondere im abfallenden Zweig die Testdaten einen völlig anderen Verlauf vortäuschen als er aus den Sterbefallzahlen folgt. Da die letzteren weniger stark von der Testpolitik beeinflusst – und beeinflussbar – sind, konzentriere ich mich hier nur auf Sterbefallzahlen. Für diese kann die Vorhersagegenauigkeit für den Anstieg für 13 Länder und für die ganze Kurve für 12 Länder geprüft werden.

Was will und kann man ab wann vorhersagen?

Sehr gern würde man natürlich so früh wie möglich vorhersagen, wie viele Infektionen man maximal haben wird, weil das die Belastung der Krankenhäuser bestimmt. Dafür müsste man allerdings neben der Zahl der positiven Tests auch die gesamte Zahl der Tests erfassen, wie ich bereits am 5. April argumentiert habe. Der politische Wille dazu scheint – warum auch immer – nicht vorhanden zu sein.

Unter diesen Bedingungen ist die beste Abschätzung für die Belastung des Gesundheitswesens indirekt aus der maximalen Zahl von Todesfällen ableitbar. Diese kann mein Modell allerdings erst sicher erkennen, wenn der Höhepunkt bereits überschritten ist, also zu spät. Im Anstieg kann man allerdings bereits den Sättigungswert A der logistischen Funktion abschätzen, der eine obere Grenze für die maximale Fallzahl Nmax ist: A >= Nmax. Wenn es ein sichtbares Plateau gibt, ist zudem A eine sehr gute Abschätzung für Nmax. Man kann A auch dann abschätzen, wenn man den Zeitpunkt t1/2 abgeschätzt hat, denn dort beträgt die Fallzahl gerade A/2. Eine Abschätzung von t1/2 mit Fehlergrenzen übersetzt sich daher direkt in eine Abschätzung von A mit Fehlergrenzen.

Zudem würde man gern wissen, wie schwer die Epidemiewelle insgesamt ist. Ein Maß dafür ist die Gesamtzahl der Todesfälle, also die obere Grenze gegen die die schwarze Kurve von kumulativen Zahlen im rechten Diagramm in Abbildung 1 konvergiert. Wenn Politiker und Journalisten Vernunftgründen zugänglich wären, wäre es auch von Interesse, den Zeitpunkt zu kennen, zu dem 90% aller Sterbefälle oder Infektionen geschehen sind. Wir müssen diesen Fall hier nicht weiter betrachten, weil die Voraussetzung mindestens im Zusammenhang mit Covid-19 nicht gegeben ist. Möglich wäre die Vorhersage mit brauchbarer Genauigkeit allerdings schon.

Bezüglich der Vorhersagbarkeit beobachtet man nun die drei in Abbildung 2 gezeigten Verhaltensweisen. Der oben gezeigte Typ von Belgien ist bei Weitem am häufigsten anzutreffen. Bis zu einem gewissen Zeitpunkt - hier für Z < 0,9 - streuen die Vorhersagen stark und irregulär. Dann wird der Verlauf recht glatt und konvergiert gegen einen wohldefinierten Vorhersagewert.

Die hier verwendete normierte Zeitachse, Z = (tt1/2)/Trise oder Z = (ttmax)/Tdecay, bedarf noch einer Erklärung. Die Idee hinter der ersten Definition ist, dass die Vorhersagbarkeit davon abhängt, welchen Anteil des stark ansteigenden Teils man schon kennt. Wo dieser Teil auf der natürlichen Zeitachse t (in Tagen) liegt, wird durch t1/2 charakterisiert (zur Erklärung siehe Abbildung aus der Vorwoche). Die Breite des ansteigenden Teils wird durch Trise eingebracht, das in der Abbildung mit taurise angeschrieben ist. Die beiden Parameter t1/2 und Trise stammen aus der aktuellen Anpassung mit nur einem Teil der Datenpunkte bis zu einem Zeitpunkt in der Vergangenheit, denn nur diese würde man bei der Anwendung der Methode kennen. Die Definition für den abfallenden Zweig ist analog.

Der in der Mitte ausnahmsweise an Zahlen positiver Tests gezeigte Typ von Italien tritt deutlich seltener auf. Die Vorhersagewerte zeigen eindeutig einen zeitlichen Trend, was darauf hindeutet, dass der Abfall nicht wirklich exponentiell ist. Einerseits habe ich keine Theorie, die verlangt, dass der Abfall exponentiell sein muss. Andererseits sieht man diesen Effekt aber die bei Sterbefällen und auch bei positiven Tests nur selten. Das legt eher nahe, dass ein zeitlicher Trend in der Zahl der täglichen Tests die Ursache ist.

In der unteren Zeile sieht man in den brasilianischen Sterbefallzahlen einen extrem seltenen Effekt. Es gibt zwei alternative Vorhersagen für t1/2, von denen eine einen Trend zeigt, die andere hingegen stabil ist. Mathematisch gesehen ist die Vorhersage instabil. Praktisch ist sie nicht unbrauchbar. Beide Vorhersagen liegen immer unter Tag 130, dem 9. Mai 2020. Das wiederum legt eine maximale (gemittelte) Zahl der Sterbefälle pro Tag von maximal 1500 nahe. Journalisten scheinen dagegen zu denken, die Zukunft in Brasilien sei bezüglich Covid-19 noch völlig ungewiss. Die Zukunft wird zeigen, was der Fall ist.

Insgesamt scheint es so, als ob man brauchbare Vorhersagen machen kann, wobei t1/2 besser konvergiert als A. Die Frage ist dann, wie man die Vorhersagen am besten macht und wie man ihre Unsicherheit abschätzt.

Der Vorhersagealgorithmus

Die häufig beobachtete gute Konvergenz im zuverlässigen Bereich und die oft starke Streuung davor legen das folgende Vorgehen nahe. Wir berechnen Vorhersagen aus den Daten bis zum letzten Tag, an dem sie vorliegen (13. Juni) und außerdem für die Daten bis zum 12., 11., 10., 9., 8. und 7. Juni, also das, was wir im Verlauf der vergangenen Woche an jedem Tag vorhergesagt hätten. Wenn in dieser Zeit t1/2 um mehr als 7 Tage vom Wert des 13. Juni abweicht oder die vorhergesagte kumulative Zahl der Todesfälle um mehr als 10%, verwerfen wir die Vorhersage ganz. Insgesamt machen wir Vorhersagen ohnehin nur, wenn die maximale Zahl täglicher Sterbefälle größer als 25 ist. Wenn die Vorhersage nicht verworfen wurde, nehmen wir ihre Unsicherheit mit der doppelten Standardabweichung der in der letzten Woche vorhergesagten Werte an. Für t1/2 übersetzen wir diese Unsicherheit in einen Mittelwert und Bereich für den Sättigungswert A der logistischen Kurve. Die Werte für t1/2 und A sagen wir nur voraus, wenn der wir die kumulative Zahl der Sterbefälle nicht abschätzen können. Da die Zahl der Datensätze überschaubar, für die wir Vorhersagen machen, habe ich in jedem Fall Diagramme der Vorhersagen für die letzten 28 Tage angesehen, um zu erkennen, ob dieser Algorithmus aus irgendeinem Grund fehlgeht.

Dieser Algorithmus zeigt übrigens, dass das in Abbildung 2 zu sehende erratische Verhalten für Brasilien daher kommt, dass für Daten von frühen Zeitpunkten normalisierte Zeiten herauskommen, die denen späterer Daten ähneln. Die Vorhersage ist tatsächlich seit zwei Wochen stabil. Für China erhält man eine stabile Vorhersage, aber keine gute Anpassung der Daten. In Indonesien ist die Anpassung ebenfalls schelcht un es zeigt sich ein Trend der Vorhersage von t1/2 , der auf eine "Mehrwellenverhalten" zurückzuführen scheint. Auch für den Iran sieht man am Ende der Kurve einen neuen Anstieg. Diese Vorhersagen habe ich daher nicht mit aufgeführt. Ebenfalls entfernt habe ich die Vorhersage für die Dominikanische Republik, in der eine tägliche Sterbefallzahl von über 25 auftritt, aber ganz klar ein Ausreißer ist, weil die Zahl an allen anderen Tagen deutlich niedriger ist.

Die Vorhersagen

Österreich: Es wird insgesamt 674 ± 3 Covid-19 zugerechnete Sterbefälle geben.

Belgien: Es wird insgesamt 9'860 ± 7 Covid-19 zugerechnete Sterbefälle geben.

Bolivien: Die Hälfte des Anstiegs wurde am 29. Mai (± 3 Tage) erreicht. Die maximale Zahl von Sterbefällen pro Tag (gleitendes 7-Tage-Mittel) wird 28 ± 4 betragen.

Brasilien: Die Hälfte des Anstiegs wurde am 7. Mai (± 2 Tage) erreicht. Die maximale Zahl von Sterbefällen pro Tag (gleitendes 7-Tage-Mittel) wird 1102 ± 73 betragen.

Deutschland: Es wird insgesamt 9'089 ± 4 Covid-19 zugerechnete Sterbefälle geben.

Ecuador: Es wird insgesamt 3'901 ± 134 Covid-19 zugerechnete Sterbefälle geben.

Finnland: Es wird insgesamt 338 ± 2 Covid-19 zugerechnete Sterbefälle geben.

Frankreich: Es wird insgesamt 29'885 ± 12 Covid-19 zugerechnete Sterbefälle geben.

Großbritannien: Es wird insgesamt 46'540 ± 400 Covid-19 zugerechnete Sterbefälle geben.

Kanada: Es wird insgesamt 11'199 ± 239 Covid-19 zugerechnete Sterbefälle geben.

Irland: Es wird insgesamt 1'688 ± 12 Covid-19 zugerechnete Sterbefälle geben.

Italien: Es wird insgesamt 36'352 ± 261 Covid-19 zugerechnete Sterbefälle geben.

Mexiko: Die Hälfte des Anstiegs wurde am 18. Mai (± 2 Tage) erreicht. Die maximale Zahl von Sterbefällen pro Tag (gleitendes 7-Tage-Mittel) wird 574 ± 74 betragen. Der Epidemiehöhepunkt bei den Sterbefällen wird vermutlich in den nächsten zwei Wochen erreicht.

Peru: Die Hälfte des Anstiegs wurde am 1. Mai (± 2 Tage) erreicht. Die maximale Zahl von Sterbefällen pro Tag (gleitendes 7-Tage-Mittel) wird 136 ± 10 betragen.

Philippinen: Es wird insgesamt 1'546 ± 144 Covid-19 zugerechnete Sterbefälle geben.

Polen: Es wird insgesamt 1'513 ± 139 Covid-19 zugerechnete Sterbefälle geben. Diese Vorhersage ist etwas unsicherer, weil es gegen Ende einen schwachen Trend zu geben scheint.

Portugal: Es wird insgesamt 1'736 ± 40 Covid-19 zugerechnete Sterbefälle geben.

Rumänien: Es wird insgesamt 1'471 ± 43 Covid-19 zugerechnete Sterbefälle geben.

Russland: Die Hälfte des Anstiegs wurde am 5. Mai (± 2 Tage) erreicht. Die maximale Zahl von Sterbefällen pro Tag (gleitendes 7-Tage-Mittel) wird 164 ± 16 betragen.

Schweden: Es wird insgesamt 6'863 ± 84 Covid-19 zugerechnete Sterbefälle geben.

Schweiz: Es wird insgesamt 1'694 ± 4 Covid-19 zugerechnete Sterbefälle geben.

Spanien: Es wird insgesamt 30'457 ± 249 Covid-19 zugerechnete Sterbefälle geben.

Türkei: Es wird insgesamt 5'032 ± 35 Covid-19 zugerechnete Sterbefälle geben. Bei sehr ähnlicher Einwohnerzahl ist das deutlich weniger als in Deutschland.

USA: Es wird insgesamt 146'813 ± 627 Covid-19 zugerechnete Sterbefälle geben. Das liegt ziemlich genau in der Mitte zwischen der ersten und zweiten Regierungsvorhersage, die vermutlich von den CDC kam und die einer minderschweren Epidemie (Stufe 2 von 5) entsprach.

Grenzen und Schlussfolgerung

Die Vorhersagen gelten nur, wenn die erste Welle abklingt, ehe eine zweite Welle beginnt. Die Unsicherheiten könnten etwas unterschätzt sein, weil bei den teilweise geringen Fallzahlen schon ein lokaler Ausbruch ins Gewicht fallen kann.

Dennoch kann ich festhalten, dass die Politiker Planungsgrößen haben könnten, wenn sie solche haben wollten.

23:38 14.06.2020
Dieser Beitrag gibt die Meinung des Autors wieder, nicht notwendigerweise die der Redaktion des Freitag.
Geschrieben von

Gunnar Jeschke

Naturwissenschaftler, in der DDR aufgewachsen, gelebt in Schwarzheide, Dresden, Wako-shi (Japan), Bonn, Mainz, Konstanz und Zürich.
Gunnar Jeschke

Kommentare 21