Kann Wikipedia die Grippezahlen voraussagen?

Wenn die Grippezeit beginnt, suchen die Menschen im Netz nach der Erkrankung. Das brachte einen italienischen Computerwissenschaftler auf eine Idee.

Dieser Artikel erschien zuerst am 3.12.2021 in der Berliner Zeitung.

Die Grippesaison beginnt in Deutschland Anfang Oktober und dauert bis Mitte Mai. Das Robert Koch-Institut steht auf dem Standpunkt, dass sich Grippewellen „generell nicht vorhersagen“ lassen. Es überwacht aber die Meldungen beim Gesundheitsamt und erkennt so schnell auffällige Häufungen. Außerdem entwickelt das RKI seit etwa 2015 ein Frühwarnsystem. Dieses soll über die reinen Falldaten hinaus andere Informationen berücksichtigen, um laut Projektantrag insbesondere in Krisensituationen schneller handeln zu können. Allerdings: „Für Influenza wird das Signale-System im derzeitigen Zustand nicht genutzt“, so die RKI-Pressestelle.

Die US-Gesundheitsbehörde Centers for Disease Control and Prevention (CDC) veranstaltet hingegen seit 2013 einen jährlichen Wettstreit über die besten Vorhersagen. Viele der Grippe-Orakel setzen darauf, dass die Entwicklung der Fallzahlen in der Vergangenheit Hinweise auf die Gegenwart gibt. Da jedoch nicht jeder Erkrankte zum Arzt geht und auch nicht jede Patientin auf Viren getestet wird, bleiben viele Grippefälle unerkannt. Außerdem braucht die Sammlung der Meldungen Zeit, die Zahlen kommen also mit Verzögerung. Deshalb werden Stellvertreterzahlen benutzt: Zahlen, die das Gleiche sagen, aber schneller und einfacher zu erhalten sind.

Computerwissenschaft und Epidemien

Cristian Consonni hat mit Epidemien erst einmal nichts zu tun. Der Italiener ist Computerwissenschaftler und las für seine Doktorarbeit gewissermaßen zwischen den Zeilen der Wikipedia: Er suchte nach Informationen, die in der Struktur der Enzyklopädie stecken. Zufällig stieß er 2017 auf einen Artikel von David McIver und John Brownstein. Diese hatten mehrere Dutzend Seiten der englischsprachigen Wikipedia ausgewählt und deren Zugriffe mit der offiziellen Zahl der Grippefälle in den USA verglichen. Denn Menschen, die sich krank fühlen, suchen im Internet nach ihren Symptomen und landen dann oft bei Wikipedia. McIver und Brownstein trainierten Computeralgorithmen, um wahrscheinliche Szenarien zu beschreiben.. Consonni denkt sich, das könne er auch.

Consonni, sein Doktorvater Albert Montresor und der Student Giovanni De Toni wollten die Studie wiederholen, auf andere Sprachen ausweiten und außerdem die relevanten Begriffe ohne medizinisches Expertenwissen auswählen. Denn McIver und Brownstein hatten Begriffe wie Fever (deutsch: Fieber) oder Tamiflu per Hand ausgewählt. Anfangs dachte Consonni, das wäre schnell erledigt, „mit ein bisschen Arbeit“, wie er auf Twitter schreibt. „‚Ein bisschen Arbeit‘ waren übrigens über vier Jahre.“

Ein Grund dafür: McIver und Brownstein hatten ihre Software nicht veröffentlicht. Das heißt: „Wir wussten nicht genau, was sie getan hatten“, sagt Consonni. Die drei Kollegen mussten also zunächst die Programme komplett neu schreiben, bis sie die ursprünglichen Ergebnisse erhielten.

Dann wählten sie die Begriffe mit einem eigenen Verfahren. Sie suchten nach Artikeln, die auf „Influenza“ verweisen, aber auch von „Influenza“ mit wenigen Klicks erreicht werden können. Denn niemand mit Grippe wird nach „Chiapas“ suchen, obwohl dort ein direkter Link auf „Influenza“ steht. Der entgegengesetzte Weg braucht mindestens drei Klicks, zum Beispiel über „PCR“ und „Criollo (Kakao)“. Der Artikel „Superinfektion“ hingegen liegt nur zwei Klicks entfernt.

Die Anzahl aller möglichen Wege und ihrer Länge ergibt den sogenannten Cyclerank. Mit Bezug zum Ursprung „Influenza“ wählten die Forscher die relevantesten Artikel der italienischen, holländischen und deutschen Wikipedia aus – jeweils ein paar Hundert Seiten. Mit den Zugriffszahlen dieser Seiten trainierten sie ihre Algorithmen.

Die Genauigkeit ist mit anderen Studien vergleichbar

Das Ergebnis ist „nicht weltbewegend“, wie Consonni sagt. Die Genauigkeit ist also mit anderen Studien vergleichbar. Neu ist aber, dass die so ausgewählten Begriffe objektiv sind. Die Methode ist sprachunabhängig und die Begriffe lassen sich leicht an Änderungen in der Wikipedia oder im Suchverhalten anpassen.

Ein großes Problem dieser Art von Vorhersagen bleibt jedoch bestehen: Ist das wachsende Interesse durch steigende Erkrankungen oder von Berichten in den Medien ausgelöst? Cristian Consonni sagt: „Wir haben versucht, das zu berücksichtigen, aber es ist sehr schwer, an vernünftige Daten zu kommen.“ Das Problem muss wahrscheinlich anders gelöst werden.

Consonni suchte eine Zusammenarbeit mit Epidemiologen der Fondazione Bruno Kessler. Sie versuchen zu erkennen, wie sehr das Wissen über bestimmte Krankheiten per Mundpropaganda verbreitet wird und wie groß die Rolle von Medienberichten ist.

Für den Ebola-Ausbruch 2014 in Westafrika und den Zika-Ausbruch 2015 in Brasilien erhielten sie vielversprechende Ergebnisse. Sie schrieben einen Aufsatz und sandten ihn zu einer Fachzeitschrift. „Leider hatte dieser Aufsatz ein unglückliches Leben“, sagt Consonni. Nachdem er fast ein Jahr lang begutachtet wurde, lehnte die Fachzeitschrift eine Veröffentlichung ab. Nicht jedoch aus fachlichen Gründen, sondern als für sie „unpassend“.

Das ist ärgerlich, aber nicht unbedingt ungewöhnlich, also diskutierten die Kollegen eine erneute Einsendung in einer anderen Publikation. „Aber dann kam Covid und seitdem sind alle meine Epidemiologen-Kollegen schwer beschäftigt.“

Dieser Artikel erschien zuerst am 3.12.2021 in der Berliner Zeitung. Der Beitrag unterliegt der Creative Commons Lizenz (CC BY-NC-ND 4.0). Er darf für nicht kommerzielle Zwecke unter Nennung des Autors und der Berliner Zeitung und unter Ausschluss jeglicher Bearbeitung von der Allgemeinheit frei weiterverwendet werden.


Kommentar hinterlassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert