Débats sur Covid-19, parle-t-on de la même chose ?

Par Nicolas Gambardella

[English version]

Covid-19 nous affecte tous de manière quotidienne et les discussions autour de la maladie déchaînent les passions, que ce soit chez les politiques, les professionnels de la santé, les scientifiques ou le grand public. Commentaires et débats, en particulier en ce qui concerne la gravité de la pandémie et la façon de la contrer, sont souvent entachés d’inexactitude voire de mauvaise foi du fait de la confusion entre différents concepts et de l’incompréhension de certains d’entre eux. On parle de choses différentes, on compare des choses qui ne sont pas comparables et on détourne les propos des autres.

Je ne suis ni médecin ni épidémiologiste. Mes opinions n’engagent que moi, et je ne suis certainement pas en position de fournir des conseils. Ce billet n’a donc pas pour vocation de prendre position mais d’apporter une certaine clarté sur les concepts balancés de-ci de-là au gré des articles de presse et des tweets rageurs.

Covid-19 et SRAS-CoV-2, est-ce la même chose ?

Non, Covid-19 et SRAS-CoV-2, ne sont pas deux noms désignant la même chose. En effet, Covid-19 est une « maladie », c’est-à-dire un ensemble de symptômes reliés à une cause commune identifiée (par opposition à un « syndrome » qui serait un ensemble de symptômes dont la cause est inconnue, incertaine ou non pertinente). Cette maladie est due à l’infection des humains par le virus SRAS-CoV-2. Cette infection est la cause déclenchant la maladie, ce n’est pas la maladie. Une partie importante de la population n’exhibe aucun symptôme après l’infection par SRAS-Cov-2, on dit que les personnes sont « asymptomatiques ». En d’autres termes, ces personnes ne sont pas malades. Selon les études, cette population est estimée entre un tiers des personnes infectées à plusieurs fois les personnes déclenchant la maladie.

On voit donc qu’il y a une grande différence de gravité selon qu’on parle de l’infection par le virus ou de la maladie. L’infection par le SRAS-CoV-2 n’est globalement pas très grave, comparée par exemple aux infections par le virus Ebola ou le virus de la rage. En revanche, du fait des symptômes respiratoires sévères et de l’absence de traitements, la maladie Covid-19 est plus dangereuse que la rage.

La maladie est diagnostiquée sur la base des symptômes, avant hospitalisation, durant l’hospitalisation or post-mortem. Seule une certaine proportion des patients est testée pour la présence du virus. Il est généralement admis que chez tous les patients présentant les symptômes de Covid-19 et positifs pour le virus, celui-ci est le facteur déclenchant de la maladie. Mais il faut se rappeler que nous sommes tous infectés en permanence pas plusieurs virus (parfois plusieurs souches du même virus). Pour les patients non-testés pour la présence du virus, la décision dépend des politiques locales. D’où par exemple les débats sur la très faible mortalité par Covid-19 en Russie, ou sur la place des décès en maisons de retraite.

En conclusion, toutes les personnes infectées par SRAS-CoV-2 ne sont pas malades de Covid-19, et il est possible que chez une petite partie des personnes diagnostiquées comme malades de Covid-19 (en particulier dans les diagnostics post-mortem) la maladie n’ait pas été déclenchée par SRAS-CoV-2.

Plus haut, j’ai utilisé de mot « mortalité ». Il est donc temps de faire un petit point sur le vocabulaire.

Mortalité, Létalité, taux de létalité par cas, taux de létalité par infection

La « mortalité » d’une maladie représente le nombre de personnes tuées par cette maladie dans une population donnée, incluant les personnes non atteintes de la maladie. La « létalité » d’une maladie représente le nombre de personnes tuées par cette maladie au sein des patients atteints. La létalité d’une maladie ne dépend pas de sa « prévalence », ce qui est le cas de la mortalité. Dans la plupart des pays, la grippe saisonnière a un taux de mortalité beaucoup plus élevé que la fièvre hémorragique due à Ebola, bien que cette dernière ait un taux de létalité bien plus élevé.

Afin d’estimer le taux de létalité d’une maladie infectieuse, il faut mettre en correspondance les valeurs observées de décès dans la population malade. La valeur observée est le taux de létalité par cas (CFR, pour Case Fatality Ratio). La valeur estimée est le taux de létalité par infection (IFR, pour Infection Fatality Ratio). On pourrait croire qu’avec une évaluation bien construite et attentive ces nombres sont proches. Il n’en ait rien. La première raison est décrite dans le paragraphe précédent (différence entre détection de l’infection et diagnostic de la maladie). La seconde est que le taux de létalité par cas évolue au cours du temps. Les premiers malades diagnostiqués présentent généralement des formes sévères, avec une mortalité élevée. Le taux de létalité observée est donc très élevé (un cas extrême étant 100 % si le premier malade meurt). Au fur et à mesure que le diagnostic est étendu à une population plus large, et que la prise en charge des malades s’améliore, la proportion de personnes survivant à la maladie augmente. Et le taux de létalité par cas se rapproche du taux de létalité par infection, autrement dit du « vrai » taux de létalité. On peut observer cette évolution sur l’image ci-dessous, représentant l’issue des maladies Covid-19 en Espagne (Source https://www.worldometers.info/coronavirus/country/spain/, le 23 mai 2020). Le premier malade a guéri, puis pendant toute une période, 50 % des malades sont décédés, ce qui correspond à peu près à la fraction de décès des patients Covid-19 sous ventilateurs. Le taux de rétablissement augmente dès lors de manière plus ou moins régulière.

Il est très important de comprendre que si 10 % des patients diagnostiqués pour Covid-19 dans une région donnée et à une période donnée décèdent de la maladie, cela ne signifie absolument pas que 10 % des personnes infectées par le virus vont en décéder.

Peut-on comparer la létalité entre pays ? Influence des politiques de test

Afin d’évaluer les taux de létalité par infection, il faut bien entendu mesurer les taux de létalité par cas, et pour ce, être à même de détecter les cas. Il y a deux types de test.

Les tests dits sérologiques détectent la présence dans le sang d’anticorps ciblant le virus. Ces tests permettent de savoir si une personne a été infectée par le passé. Ils présentent deux problèmes principaux. Premièrement, à l’heure actuelle, on ne sait pas exactement quelle proportion des personnes infectées crée des anticorps. Pour les personnes infectées ayant développé Covid-19, il semble que la quantité d’anticorps soit liée à la sévérité des symptômes (probablement car ces derniers sont liés à la quantité de virus, la « charge virale »). La grande inconnue concerne les personnes n’ayant pas développé la maladie. Deuxièmement, ces tests ne sont généralement pas très fiables, et en particulier leur « sensibilité » n’est pas suffisamment élevée (plus de détails dans ce billet).

L’autre type de test consiste à détecter la présence du virus chez les gens activement infectés. Le problème de ces tests est qu’il faut les refaire continuellement. Pendant quelques jours après l’infection, la charge virale n’est pas suffisante pour être détectée. De plus, après quelques semaines, le virus n’est plus détectable. Une personne ayant présenté des symptômes de Covid-19 peut maintenant être négative. Ce type de test est néanmoins celui utilisé pour calculer les taux de létalité par cas. Il est dès lors clair que la politique de test va influencer les calculs. Si un pays ne test que les personnes entrant à l’hôpital, le taux de létalité va être plus important que si un pays teste la population dans son ensemble. Il n’est donc pas surprenant qu’on observe une corrélation très nette entre les taux de létalité par cas et le nombre de tests effectués par million d’habitants. Le graphe ci-dessous est basé sur les données de Worldometer du 10 avril 2020.

Peut-on comparer la létalité entre pays ? Influence de l’espérance de vie

Différentes études ont tenté de calculer un taux de global de létalité de Covid-19 pour l’ensemble de la population, voir par exemple ici, ici, et ici. Ces estimations sont basées sur des données obtenues par différentes méthodes (par exemple, diagnostic de la maladie, détection du virus, détection des anticorps contre le virus) dans des régions disparates, et analysées de manière variées. Il n’est pas surprenant que les résultats soient pour le moins hétérogènes. Ce qu’elles ont en commun est de vouloir déterminer un taux « universel ». Vouloir attacher à une maladie un taux de létalité unique, est une opération toute à faire justifiable. Cependant, ce taux ne peux être valable que pour une population homogène et va nécessairement varier entre populations, rendant les comparaisons difficiles, voire non pertinentes.

Le premier facteur est l’effet de l’âge. La plupart des maladies respiratoires affectent de manière disproportionnée les personnes âgées. De ce fait, les infections par les virus déclenchant ces maladies, comme les grippes, montre une mortalité extrêmement dépendante de l’âge. De manière similaire, une estimation du taux de létalité de Covid-19 en Chine était de 0,0016 % pour les enfants de 0 à 9 ans et croissait progressivement jusqu’à 7,8 % pour les plus de 80 ans, soit un accroissement de près de 5000 fois.

Si la létalité dépend le l’âge, c’est bien également le cas de la mortalité. Cependant, la relation n’est pas directe du fait de la distribution de la population par classe d’âge (la « pyramide des âges »). Il y a beaucoup plus de personnes âgées de 60 à 85 ans que de 85 à 110 ans. Bien que Covid-19 soit beaucoup plus létale dans la seconde population, il y a plus de mort dans la première. Différents pays ayant des pyramides des âges différentes, cela affectera leur taux de létalité estimé global, comme le montre la figure ci-dessous (empruntée de https://theconversation.com/the-coronavirus-looks-less-deadly-than-first-reported-but-its-definitely-not-just-a-flu-133526)

Oui, mais attention, ce raisonnement n’est pas si simple. Comme le montrait déjà l’ONU en 1955, la courbe de mortalité globale est affectée par l’espérance de vie. La mortalité à 25 ans dans un pays dont l’espérance de vie est de 60 ans, est la même que la mortalité à 45 ans dans un pays dont l’espérance de vie est de 70 ans. Cela est dû aux causes sous-jacentes de l’espérance de vie plus faible. Ce qui nous amène aux comorbidités.

Peut-on comparer la létalité entre pays ? Influence des comorbidités

Stricto-sensu, les comorbidités sont les autre troubles qui vont affecter l’issue de la maladie. Mais ici j’entends par là tous les facteurs non liés à l’infection par SRAS-CoV-2 qui vont affecter le taux de létalité de Covid-19. Un papier a étudié un grand nombre de ces facteurs sur une grande cohorte de plus de 96000 patients venant de six continents (le but de l’étude était d’étudier l’effet de médicaments sur Covid-19, mais cela n’est pas le propos ici). Si chaque année de vie accroît le risque de décès par Covid-19 de 1 %, un point d’indice de masse corporelle l’accroît de 6 %, avoir du diabète de 20 %, fumer de 27 % et être d’origine hispanique de 50 % ! Ces différents facteurs ne sont bien entendu pas indépendants (et du coup non additifs).

L’impact de l’origine ethnique peut venir en partie des facteurs de prédisposition génétiques, ainsi que des conditions environnementales. Il est par exemple clair que la transmission de SRAS-CoV-2 est affectée par la température et l’humidité ainsi que la pollution atmosphérique. Il n’est pas impossible que l’issue de la maladie en soit également affectée (possiblement via des comorbidités respiratoires).

Enfin, l’état des systèmes de santé a un impact considérable sur le nombre de décès par Covid-19. Si la plupart des malades n’ont que des symptômes légers (sans même parler des personnes asymptomatiques), une fraction des patients nécessitent une aide respiratoire. Dans le pire des cas, ces personnes doivent être intubées. Une fraction importante de ces dernières survivent. Dans les systèmes de santé n’ayant pas une capacité de ventilateurs suffisante, tous ces patients décèdent. Et ce indépendamment des politiques entreprises pour contenir ou éradiquer la maladie. Cependant, ces politiques sont importantes pour maintenir le nombre de malades atteints de la forme sévère de Covid-19 en deça des limites du système de santé (« aplanir la courbe »).

Immunité collective ou politiques d’isolation

Une des sources inépuisable de débat stériles et acrimonieux est la bataille entre partisans de l’« immunité collective » (aussi appelée immunité grégaire ou de groupe) et ceux de l’«isolement». Cette dernière notion est familière à tout le monde, et assez simple à comprendre. Si on isole les gens, via les gestes barrières et le confinement, ils ne peuvent être contaminés ou contaminer les autres. Si de plus on met les malades en quarantaine suffisamment longtemps pour qu’ils guérissent et se débarrassent du virus, on peut l’éradiquer. Il est bien évident que dans le cas du SRAS-CoV-2, le but n’est plus de l’éradiquer, le nombre de personnes infectées étant trop grand et leur répartition géographique trop large. L’objectif est de diminuer au maximum le nombre de maladies sévères en attendant un vaccin.

L’immunité collective signifie qu’une partie suffisante de la population est exposée au virus et développe une réponse immunitaire pour que la chance qu’une personne non-exposée rencontre une personne contaminée soit très faible. Pour une grande partie des virus, la proportion requise de la population est légèrement supérieure à 80 %. À noter que ce principe d’immunité collective est un aspect clé des campagnes de vaccinations. Pour qu’une campagne tienne une maladie à distance, il faut qu’une certaine partie de la population se fasse vacciner. La construction d’une telle immunité collective va également de pair avec l’isolement des personnes vulnérables jusqu’à ce que le % requis de personnes immunisées soit atteint (personne ne suggère, comme on peut parfois le lire, que la stratégie de l’immunité collective signifie qu’il s’agit de laisser mourir un % de la population correspondant à l’IFR, à savoir près de 1 % de la population mondiale).

L’estimation du % de la population ayant développé une immunité contre l’infection par SRAS-CoV-2 varie selon les études entre 1 % et 25 %. Une étude suivant une cohorte à Genève a observé qu’elle croît de 3 % par semaine. Ce pourcentage est évidemment loin d’être suffisant pour qu’une société puisse se reposer sur une immunité collective. Cela signifie-t-il que l’idée d’une immunité collective est invalidée ? Pas du tout. Au mieux, cela reflète le succès des politiques d’isolement. Dans le long terme, les conséquences des politiques d’isolement pourraient dépasser les conséquences de l’infection par SRAS-CoV-2, surtout si une vaccination ou des traitements efficaces, curatifs ou prophylactiques, ne voient pas le jour bientôt.

L’important est de comprendre que les deux approches sont incompatibles et ne peuvent donc pas engendrer des conséquences permettant d’évaluer l’autre. De plus entre la quarantaine absolue et l’exposition non contrôlée, il existe un continuum de possibilité. Par exemple, une approche intéressante, basée sur le fait que Covid-19 est principalement sévère chez les sujets âgés ou possédant des comorbidités, est l’avalanche contrôlée, reposant sur des infections volontaires.

Ce billet n’aborde bien évidemment qu’une partie des concepts à l’origine des débats houleux sur Covid-19. Mais j’espère qu’il vous servira de point de départ pour explorer la diversité des opinions disponibles et éviter l’écueil du jugement à l’emporte-pièce. Tout le monde est dans le même bateau, et recherche la même chose, à savoir une résolution de cette crise avec le moins de victimes et de conséquences possibles.

Pourquoi utiliser un test détectant 90 % des cas peut parfois être du Pile ou Face

Par Nicolas Gambardella

[Version anglaise]

Les tests sont au cœur de la plupart, sinon de la totalité, des stratégies proposées pour lutter contre la pandémie de Covid-19. La famille d’approches « identifier et éliminer » repose sur l’identification des cas de personnes infectées par le virus du SRAS-CoV-2 et sur leur isolement ou leur traitement. La famille d’approches « acquérir une immunité » repose sur l’identification des personnes qui ont été infectées par le passé et qui sont maintenant immunisées contre la maladie, afin de pouvoir les libérer. Enfin, les stratégies de dépistage influent également sur l’estimation de la létalité de cette maladie (voir remarque à la fin de ce billet).

Au moment où j’écris ces lignes (13 avril 2020), le gouvernement britannique vient de rejeter tous les tests d’anticorps sanguins qu’il a testés, c’est-à-dire les tests qui identifient les personnes ayant été en contact avec le virus dans le passé, et supposées être immunisées. Au même moment, on peut lire de nombreux rapports de « tests peu fiables », ne détectant « qu’un tiers des cas ». Comment se fait-il que des professionnels aient conçu des tests si « mauvais » ? Quelle doit être la qualité d’un test pour qu’il soit utile ? Et pourquoi un test qui repère correctement 90 % des personnes infectées ne vaut-il pas mieux qu’un pile ou face pour dire si vous êtes réellement infecté ou non ?

Allons droit au but afin que vous puissiez arrêter de lire et reprendre des activités de confinement plus agréables, si vous le souhaitez. Puis nous introduirons les maths.

Si nous disposons d’un test qui identifie correctement 90 % des personnes infectées (une sensibilité de 90 %), et qui signale correctement comme négatif 90 % des personnes non infectées (une spécificité de 90 %), mais qu’en même temps 90 % de l’ensemble de la population n’a jamais été infectée (une prévalence de 10 %), et que nous testons ensuite un échantillon aléatoire de cette population, nous obtiendrons la même quantité de vrais et faux positifs. En d’autres termes, si vous êtes testé positif, les chances que vous soyez réellement immunisé sont… 50 % ! Vous pouvez facilement comprendre ça avec l’image suivante.

Le fond bleu pâle représente la population qui n’a pas été infectée, tandis que le fond rose pâle représente la population qui a été infectée (la prévalence). Le test des personnes roses est positif, tandis que celui des personnes bleues est négatif. Comme vous pouvez le voir, il y a le même nombre de personnes roses (9) sur les fonds rose pâle et bleu pâle. Oui, le test est positif pour 9 personnes infectées sur 10, alors qu’il n’est positif que pour 1 personne non infectée sur 10. Mais il y a 9 personnes non infectées pour chaque personne infectée, ce qui fait pencher la balance dans l’autre sens.

Ce n’était qu’un exemple, simplifié puisque j’ai supposé des sensibilité et spécificité égales. Pour un test détectant la présence de quelque chose, la sensibilité serait généralement inférieure à la spécificité (manquer quelque chose sera plus probable que signaler quelque chose qui n’est pas là). Par ailleurs, comment les chiffres changent-ils lorsque nous modifions la prévalence, c’est-à-dire la proportion de la population qui a été infectée ? Venons-en aux maths.

Le calcul est basé sur le théorème de Bayes, du nom du révérend Thomas Bayes. Ce billet ne porte pas sur le théorème lui-même, sa signification ou sa démonstration. Si vous souhaitez en savoir plus, la chaîne YouTube 3Blue1Brown propose d’excellentes vidéos sur le sujet (en anglais) :

The quick proof of Bayes’ theorem

Bayes theorem

Pour aujourd’hui, acceptez juste l’affirmation suivante :

Vos chances d’être vraiment infecté si votre test est positif sont égales aux chances d’être infecté multipliées par les chances d’obtenir un test positif si vous être infecté, proportionnellement à la population dont le test est revenu positif (que les personnes aient été infectées ou non).

En mathématiques, on écrirait (P(X) étant la « probabilité de X » et la barre verticale « | » représentant une probabilité conditionnelle, à savoir la probabilité que le terme de gauche soit vrai si le terme de droite l’est) :

P(Infecté | Positif) = P(Infecté) x P(Positif | Infecté) / P(Positif)

Cette équation, le théorème de Bayes, vient du fait que :
P(Positif) x P(Infecté | Positif) = P(Infecté) x P(Positif | Infecté)
C’est évident si l’on considère l’image ci-dessous. Qu’on dessine le cercle de gauche d’abord, puis celui de droite ou le contraire, on obtient la même intersection.

Le dénominateur, P(Positif), représentant toutes les personnes testées positives, est la somme des personnes ayant correctement été testées positives après infection et de celles ayant incorrectement été testées positives alors qu’elles n’étaient pas infectées :

P(Positif) = P(Infecté) x P(Positif | Infecté) + P(NonInfecté) x P(Positif | NonInfecté)

Cette probabilité, P(Infecté | Positif), est particulièrement importante dans le cas des tests d’anticorps. Personne ne veut dire à une personne qu’elle est immunisée si elle ne l’est pas !

De la même façon, nous pouvons calculer les chances que quelqu’un ayant un test négatif ne soit effectivement pas infecté. Ceci est très important au début de l’épidémie, lorsque l’on veut éviter la propagation de la maladie par les gens infectés.

P(NonInfecté | Négatif) = P(NonInfecté) x P(Négatif | NonInfecté) / P(Négatif)

Le dénominateur, P(Négatif), représentant toutes les personnes testées négatives, est la somme des personnes ayant correctement été testées négatives en n’étant pas infectées et de celles ayant incorrectement été testées négatives bien qu’étant infectées :

P(Négatif) = P(NonInfecté) x P(Négatif | NonInfecté) + P(Infecté) x P(Négatif | Infecté)

Voyons ce que l’on obtient avec des valeurs numériques. Nous avons trois paramètres et leurs compléments. Disons que nous avons une maladie affectant 5 % de la population (la prévalence).
P(Infecté) = 0,05
P(NonInfecté) = 0,95

80 % des personnes infectées sont reconnues par le test (la sensibilité).
P(Positif | Infecté) = 0,8
P(Négatif | Infecté) = 0,2

95 % des personnes qui ne sont pas infectées ne présentent pas de test positif (la spécificité).
P(Négative | NonInfecté) = 0,95
P(Positif | NonInfecté) = 0,05

Alors, si vous êtes testé positif, quelles sont les chances que vous soyez vraiment immunisé ?

0,05 x 0,8 / (0,05 x 0,8 + 0,95 x 0,05) = 0,457

46 % ! En d’autres termes, il y 54 % de chances que vous ne soyez pas immunisé, bien que votre test soit positif… De la même manière, si votre test est négatif, les chances que vous soyez infectés sont de 0,2 %. Cela paraît négligeable, mais cela peut être suffisant pour laisser sortir un patient infectieux. De plus, ce chiffre augmente avec la prévalence. De combien ? Le graphique ci-dessous décrit l’évolution des probabilités d’être correctement testé positif ou négatif alors que la proportion de la population infectée augmente.

C’est plutôt déprimant. Une façon d’améliorer les résultats est évidemment de disposer de meilleurs tests. Cependant, le « retour sur investissement » s’amenuise à mesure que la qualité des tests s’améliore. Une autre solution, consiste à multiplier les tests, si possible avec des tests différents. C’est, par exemple, la base du test combiné pour la trisomie 21. Je vous laisse calculer les probabilités dans le cas de deux tests fournissant des résultats identiques.

Une remarque sur la létalité de Covid-19

Pourquoi ai-je écrit plus haut que la précision des tests était pertinente pour estimer la létalité de la maladie ? Vous trouverez ci-dessous un graphique du rapport entre le nombre de décès par nombre de cas et le nombre de tests par million de personnes, pour tous les pays ayant déclaré au moins un décès et au moins dix tests (données du 10 avril 2020).

Il est assez clair qu’il existe une corrélation. Plus les tests sont nombreux, plus le nombre de décès estimé est faible. Cela montre que nous surestimons probablement la létalité de la maladie, et que nous sous-estimons sa prévalence (et donc son infectiosité). Que ce résultat soit exact ou non, la capacité à déduire correctement le nombre réel de personnes infectées ou immunisées est assez cruciale. En outre, la sensibilité et la spécificité des tests utilisés par les différents pays doivent être prises en compte lors de l’estimation de la prévalence et du taux de létalité.

Why using a test that detects 90% of cases can be no better than the flip of a coin?

By Nicolas Gambardella

[French version]

Testing is at the core of most, if not all, strategies proposed to fight the Covid-19 pandemic. The “identify and squash” family of approaches relies on identifying cases of people infected by the SARS-CoV-2 virus and isolate and/or treat them. The “get immune” family of approaches relies on identifying people who were infected in the past, and are now immune to the disease, so we can release them. Finally, testing strategies also affect the estimation of how lethal this disease is (see note at the end).

As I write this post (13 April 2020), the UK government just rejected all the blood antibody tests it assessed, the tests that identify people who were in contact with the virus in the past, and supposedly immune. In a similar vein, we can see many reports of “unreliable tests”, catching “only one-third of the cases”. How come professionals designed such “bad” tests? How good a test must be to be useful? And why is a test that correctly spots 90% of infected people not better than the flip of a coin at telling if you are actually infected or not?

There is a short and a long answer. I will give the short one first, so you can stop reading and go back to more enjoyable confinement activities if you so wish.

If we have a test that correctly identifies 90% of the people who were infected (a sensitivity of 90%), and correctly reports as negative 90% of people who were not infected (a specificity of 90%), but at the same time 90% of the whole population was never infected (a prevalence of 10%), and then we test a random sample of this population, we will get the same amount of true and false positive. In other words, if you are tested positive, the chances that you are actually immune is… 50%! You can easily grasp that on the picture below.

The light blue background represents the population that has not been infected while the light pink background represents the population that has been infected (the prevalence). The blue people are tested negative, while the pink people are tested positive. As you can see, we get the same amount of pink people (9) on light pink and light blue backgrounds. Yes, the test comes back positive 9 out of 10 infected people, while it comes back positive only 1 out of 10 non-infected people. But there are 9 non-infected people for each infected one, which tips the balance the other way.

Now, that was just one example, simplified since I assumed equal sensitivity and specificity. For a test detecting the presence of something, sensitivity would typically be lower than specificity (missing something will be more probable than reporting something that is not there). Also, how do the figures change when we change the prevalence, that is the proportion of the population that got infected? Let’s get to the actual calculations.

The basis for such calculus is the Bayes’ theorem, named after the Reverend Thomas Bayes. This post is not about the theorem itself, its meaning or its demonstration. If you are interested to know more, the YouTube channel 3Blue1Brown provides excellent videos on the topic:

The quick proof of Bayes’ theorem

Bayes theorem

For our purpose, you just have to accept the following statement:

Your chances to be actually infected if you tested positive are equal to the chances to be infected in the first place multiplied by the chances of testing positive if actually infected, scaled to the size of the population that tested positive (whether actually infected or not).

In mathematical terms, we would write:
(P(X) means “Probability of X”, the vertical bar “|” represents a conditional probability, the probability that what is on the left side is true given that what is on the right side is true)

P(Infected | Positive) = P(Infected) x P(Positive | Infected) / P(Positive)

This equation, Bayes’ theorem, comes from the fact that:
P(Positive) x P(Infected | Positive) = P(Infected) x P(Positive | Infected)
This is obvious from the image below. Whether you draw the left circle first, then the second, or the other way around, the overlapping surface is still the same.

The denominator, P(Positive), representing all people who tested positive, is the sum of the people who rightly tested positive while being infected and the people who wrongly tested positive while not being infected:

P(Positive) = P(Infected) x P(Positive | Infected) + P(NotInfected) x P(Positive | NotInfected)

This probability, P(Infected | Positive), is particularly important in the cases of antibody tests. We do not want to tell a person they are immune if they are not!

Similarly, we can compute the chances that someone who tested negative is actually not infected. That is very important at the beginning of the epidemics when we want to stop infected people to spread the disease.

P(NotInfected | Negative) = P(NotInfected) x P(Negative | NotInfected) / P(Negative)

The denominator, P(Negative), representing all people who tested negative, is the sum of the people who rightly tested negative while not being infected and the people who wrongly tested negative while in fact being infected:

P(Negative) = P(NotInfected) x P(Negative | NotInfected) + P(Infected) x P(Negative | Infected)

Let’s see what we get with actual values. We have three parameters and their complement. Let’s say we have a disease affecting 5% of the population (the prevalence).
P(Infected) = 0.05
P(NotInfected) = 0.95

80% of infected people are caught by the test (its sensitivity).
P(Positive | Infected) = 0.8
P(Negative | Infected) = 0.2

95% of the people who are not infected will not be tested positive (the specificity).
P(Negative | NotInfected) = 0.95
P(Positive | NotInfected) = 0.05.

Now, if you are tested positive, what are the chances you are actually immune?

0.05 x 0.8 / (0.05 x 0.8 + 0.95 x 0.05) = 0.457

46%! In other words, there are 54% chances that you are not actually immune despite being labeled as such by the test… Conversely, if you are tested negative, the chances that you are actually infected are 0.2%. The number looks pretty small, but this can be sufficient to “leak” an infectious patient outside. And this number grows as the prevalence does. How much? The plot below depicts the evolution of probabilities to be correctly tested positive and negative when the proportion of the infected population increases.

That looks pretty grim, doesn’t it? One way of improving the results is obviously to have better tests. However, the “return on investments” becomes increasingly limited as the quality of tests improves. Another solution, lies in multiple testing, if possible with different tests. This is, for instance, the basis of combined test for Down’s Syndrome. I will let you work out the math if you get twice the same result with two independent tests.

Note about Covid-19’s lethality

Why did I write above that the accuracy of testing was relevant for estimating the lethality of the disease (the Infection Fatality Rate, IFR)? Below is a plot of the ratio number of deaths per number of cases towards the number of tests per million people, for all countries that reported at least 1 death and at least 10 tests (data from 10 April 2020).

It is pretty clear that there is a correlation, the more tests being done, the lower the estimated fatality. This shows that we probably overestimate the lethality of the disease, and underestimate its prevalence (and therefore its infectiosity). Whether this result is accurate or not, the ability to correctly infer the actual number of people infected and/or immune is pretty crucial. Moreover, the sensitivity and specificity of the tests used by different countries should be taken into account when estimating prevalence and fatality rate.