« La covid-19 » ou « le covid-19 », pourquoi est-ce important ?

Par Nicolas Gambardella

Le monde est aux prises avec l’une des pandémies les plus graves qu’il ait dû affronter dans les temps modernes. La cause en est l’infection par un coronavirus, le SARS-CoV-2. Chez une partie des êtres humains infectés, ce virus entraîne l’apparition de signes et de symptômes, qui forment — comme la cause première en est identifiée — une maladie, appelée covid-19, pour « maladie à coronavirus 2019 ». Cette maladie peut se présenter de manière plus ou moins sévère, parfois demander une hospitalisation et dans un certain nombre de cas être létale.

Pourquoi covid-19 est-il féminin ?

La covid-19 est une maladie ; c’est le sens du « d » à la fin du nom, signifiant « disease » en anglais. Dans la terminologie médicale, une maladie est un ensemble de signes cliniques et de symptômes liés à une ou des causes identifiées ; ce qui la distingue des syndromes (signes et symptômes sans cause nécessairement identifiées ou existantes) et des affections (altération des fonctions d’un organe indépendamment des causes).

En français, les maladies infectieuses sont généralement du genre féminin. En ce qui concerne les maladies causées par des virus, on écrit par exemple la rougeole, la variole, la grippe, la varicelle et j’en passe. Dans les maladies causées par des bactéries, on trouve la tuberculose, la peste, la syphillis, etc. Les exceptions viennent souvent d’appellations antérieures à l’identification des causes comme le tétanos, décrivant le symptôme — le tétanus du muscle —, le paludisme, venant de l’origine de l’infection — le marais —, ou bien encore le sida, qui était à l’origine un syndrome.

L’Organisation mondiale de la santé, qui a créé le nom, l’a utilisé au féminin en français dès le 11 février 2020. À l’époque, le grand public et la presse ne parlait que du virus, de « l’épidémie du coronavirus ». Cette forme féminine est largement utilisée au Canada et devient vite officialisée par l’Office québécois de la langue française. En Europe, les différentes instances ne différencient pas le virus de la maladie et utilisent initialement le masculin. Il faut attendre mai 2020 pour que l’Académie française exprime sa préférence pour le féminin.

Pourquoi est-ce important ?

La bataille des lexicographes sur le genre d’une maladie est certe intéressante et utile. Bien que tout langue soit « vivante » et qu’elle évolue au cours du temps, l’existence d’un ensemble de règles de base permet une communication fluide entre ses utilisateurs. Tout parent — et tout enseignant ! — corrigerait un enfant qui écrirait « le grippe » ou « le rougeole ». Cependant le genre de covid-19 présente une importance particulière.

La confusion entre l’infection par SARS-CoV-2 et l’atteinte de covid-19 est très largement répandue. Une grande partie de la population est persuadée qu’être infecté par le virus signifie être malade. Récemment le pilote de Formule 1 Sergio Perez a été testé positif pour le SARS-CoV-2. Il a immédiatement été inondé par les messages de soutien sur les réseaux sociaux, se désolant de sa maladie et lui souhaitant un prompt rétablissement. Rien n’indique cependant que Sergio Perez ait présenté un quelconque signe clinique ou se soit plaint de symptômes liés à la maladie. Cette confusion est entretenue, volontairement ou non, par les pouvoirs publics de très nombreux pays qui communiquent le nombre de tests positifs mais non le nombre de malades (si l’on était cynique, on remarquerait aussi que la mortalité dans de nombreux pays reste extrêmement faible car seules les personnes ayant été testées positives sont comptées dans les statistiques. Les personnes dont le certificat de décès indique covid-19 comme cause identifiée ou probable mais qui n’ont pas été testées sont le plus souvent ignorées).

La proportion importante de personnes infectées mais ne présentant pas de signes ou symptômes, dites asymptomatiques, est une chance et une malédiction. Une chance, car l’infection est au final peu dangereuse, en particulier pour les personnes ne présentant pas de co-morbidités spécifiques, comme l’obésité ou un grand âge (peu dangereuse au niveau individuel s’entend. La situation est bien entendu différente au niveau de la société toute entière). C’est une malédiction car en l’absence de tests systématiques, répétés et à large échelle, la plupart des personnes infectées ne sont pas détectées et continuent donc à propager le virus.

Cette confusion au sein du grand public affecte sans nul doute les décisions politiques et de santé publique (du reste, les politiques font également partie du « grand public » quand il s’agit du domaine médical). Par exemple, les énergies et les finances doivent être partagées de manière intelligente entre la lutte contre la propagation du virus et la préparation des systèmes de santé.

Que dois-je écrire ?

Le plus important est de différencier entre l’infection et la maladie. Paradoxalement, les usages en cours au début de la pandémie était meilleurs, puisqu’ils parlaient « du coronavirus », signifiant par là SARS-CoV-2 (il existe de nombreux coronavirus). On préférera donc :

Il/elle est contaminé/e par le coronavirus.

L’infection par le coronavirus est importante dans cette ville.

La propagation du coronavirus ne ralentit pas.

Mais :

Il/elle présente les symptômes de la covid-19.

La covid-19 a été une des principales causes de surmortalité chez les personnes âgées en mars 2020.

On pourra cependant omettre l’article dans certains cas, en suivant l’usage pour d’autre maladies, comme la varicelle :

Il est atteint de covid-19.

Une toux incessante est un symptôme de covid-19 (mais probablement « un des symptômes de la covid-19 »…)

En aucun cas :

Il/elle présente les symptômes du covid-19

Le covid-19 accroît le fardeau du personnel de santé.

Pour finir, notez que ce billet ne fait pas l’honneur d’une majuscule à cette maladie. La dénomination covid-19 n’est pas un nom propre, et malgré son impact, direct ou indirect, elle ne mérite pas de pré-éminence sur les autres maladies virales circulant autour du globe comme la grippe, l’hépatite et le sida.

Covid-19 arguing, are we all talking about the same thing?

By Nicolas Gambardella

[French version]

Covid-19 affects all of us on a daily basis and discussions about the disease stir passions, whether among politicians, health professionals, scientists, or the general public. Commentary and debate, particularly about the seriousness of the pandemic and how to counter it, are often tainted by inaccuracy and even bad faith due to confusion between different concepts and misunderstanding of some of them. People talk about different things, compare things that are not comparable, and misrepresent what others are saying.

I’m not a doctor or an epidemiologist. My opinions are my own, and I am certainly not in a position to provide advice. This post is not intended to take a position, but to provide some clarity on concepts that have been thrown around in pieces of news and in raging tweets.

Are Covid-19 and SARS-CoV-2 the same thing?

No, Covid-19 and SARS-CoV-2 are not two names for the same thing. Covid-19 is a “disease“, which is a set of symptoms related to an identified common cause (as opposed to a “syndrome“, which is a set of symptoms with an unknown, uncertain, or irrelevant cause). This disease is due to the infection of humans with the SARS-CoV-2 virus. This infection is the cause of the disease, not the disease itself. A large part of the population shows no symptoms after SARS-Cov-2 infection, people are said to be “asymptomatic”. In other words, these people are not sick. According to studies, this population is estimated to be between one-third of those infected to several times the number of people having the disease.

So we can see that there is a big difference in seriousness depending on whether we’re talking about the virus infection or the disease. SARS-CoV-2 infection is generally not very serious compared, for example, to Ebola or rabies viral infections. On the other hand, because of the severe respiratory symptoms and the lack of treatment, Covid-19 disease is actually more dangerous than rabies.

The disease is diagnosed on the basis of symptoms, before hospitalization, during hospitalization, or post-mortem. Only a certain proportion of patients are tested for the presence of the virus. It is generally accepted that for all patients with symptoms of Covid-19 and positive for the virus, the virus is the triggering factor for the disease. But it must be remembered that we are all permanently infected with several viruses (sometimes several strains of the same virus). For patients who are not tested for the presence of the virus, the decision depends on local policies. Hence, for example, the debates on the very low mortality from Covid-19 in Russia, or the real extent of deaths in care homes.

To summarise, not all persons infected with SARS-CoV-2 are sick with Covid-19, and it is possible that in a small proportion of persons diagnosed as sick with Covid-19 (especially in post-mortem diagnoses) the disease was in fact not triggered by SARS-CoV-2.

Above, I used the word “mortality”. So it’s time for a little vocabulary check.

Mortality, Lethality, Case Fatality Rate, Infection Fatality Rate

The “mortality” of a disease is the number of people killed by that disease in a given population, including those without the disease. The “lethality” of a disease is the number of people killed by the disease in patients with the disease. The lethality of a disease does not depend on its “prevalence“, while this is the case with mortality. In most countries, seasonal flu has a much higher mortality rate than Ebola hemorrhagic fever, although the latter has a much higher case fatality rate.

In order to estimate the fatality rate of a given infectious disease, the observed values of deaths in the sick population must be matched. The observed value is the Case Fatality Rate (CFR). The estimated value is the Infection Fatality Rate (IFR). One would think that with a well-constructed and careful assessment these numbers are close. They are not. The first reason is described in the previous paragraph (the difference between infection detection and disease diagnosis). The second is that the case-fatality rate changes over time. The first patients diagnosed usually have severe forms, with high mortality. The observed case-fatality rate is therefore very high (an extreme case being 100% if the first patient dies). As the diagnosis is extended to a larger population, and as the management of patients improves, the proportion of people surviving the disease increases. And the case-fatality rate tends to the infection fatality rate i.e., the “true” case fatality rate. This evolution can be seen in the image below, representing the outcome of Covid-19 diseases in Spain (Source https://www.worldometers.info/coronavirus/country/spain/, 23 May 2020). The first patient recovered, and then for a period of time 50% of the patients died, which corresponds approximately to the fraction of deaths of Covid-19 patients on ventilators. Then, the recovery rate increases more or less steadily.

It is very important to understand that if 10% of the patients diagnosed with Covid-19 in a given area and at a given time die from the disease, it absolutely does not mean that 10% of the people infected with the virus will die from it.

Can lethality be compared between countries? Influence of testing policies

In order to assess infection-fatality rates, it is, of course, necessary to measure case fatality rates and to be able to detect cases. There are two types of tests.

So-called serological tests detect the presence of antibodies in the blood that target the virus. These tests can tell if a person has been infected in the past. There are two main problems with these tests. First, at the moment we do not know exactly what proportion of infected people create antibodies. In the case of infected people who have developed Covid-19, it seems that the amount of antibodies is related to the severity of symptoms (probably because symptoms are related to the amount of virus, the “viral load“). The big unknown is for people who have not developed the disease. Second, these tests are generally not very reliable, and in particular, their “sensitivity” is not high enough (more details in this post).

The other type of test detects the presence of the virus in actively infected people. The problem with these tests is that they have to be repeated over and over again. For a few days after infection, the viral load is not sufficient to be detected. Also, after a few weeks, the virus is no longer detectable. A person who had symptoms of Covid-19 can now be negative. Nevertheless, this is the type of test used to calculate case fatality rates. It is therefore clear that the testing policy will influence the calculations. If a country only tests people entering the hospital, the case fatality rate will be higher than if a country tests the whole population. It is therefore not surprising that there is a very clear correlation between case-fatality rates and the number of tests performed per million inhabitants. The graph below is based on Worldometer data from 10 April 2020.

Can lethality be compared between countries? Influence of age structure

Different studies have attempted to calculate an overall lethality rate of Covid-19 for the whole population, see for example here, here, and here. These estimates are based on data obtained by different methods (e.g. disease diagnosis, virus detection, detection of antibodies to the virus) in disparate regions, and analysed in a variety of ways. Not surprisingly, the results are, to say the least, heterogeneous. What they have in common is the desire to determine a “universal” rate. Trying to determine a single lethality for a disease is a justifiable exercise. However, this rate can only be valid for a homogeneous population and will necessarily vary between populations, making comparisons difficult, if not irrelevant.

The first factor is the effect of age. Most respiratory diseases disproportionately affect the elderly. As a result, infections with the viruses that trigger these diseases, such as influenza, show highly age-dependent mortality. Similarly, an estimate of the lethality rate of Covid-19 in China was 0.0016% for children aged 0-9 years and gradually increased to 7.8% for those over 80 years of age, an increase of almost 5,000 times.

If lethality depends on age, so does mortality. However, the relationship is not direct because of the distribution of the population by age group (the population pyramid). There are many more people aged 60 to 85 than there are aged 85 to 110. Although Covid-19 is much more lethal in the latter population, there are more deaths in the former. Since different countries have different age pyramids, this will affect their overall estimated lethality, as shown in the figure below (borrowed from https://theconversation.com/the-coronavirus-looks-less-deadly-than-first-reported-but-its-definitely-not-just-a-flu-133526)

However, beware, things are not that simple. As the UN showed as early as 1955, the global mortality curve is affected by life expectancy. Mortality at age 25 in a country with a life expectancy of 60 is similar to mortality at age 45 in a country with a life expectancy of 70. This is due to the underlying causes of lower life expectancy. Which brings us to the comorbidities.

Can lethality be compared between countries? Influence of comorbidities

Stricto-sensu, comorbidities are the other disorders that will affect the outcome of the disease. However, for this post, I mean all the factors not related to SARS-CoV-2 infection that will affect the lethality of Covid-19. One research paper studied many of these factors in a large cohort of over 96,000 patients from six continents (the purpose of the study was to study the effect of drugs on Covid-19, but that is not our point here). If each year of life increases the risk of Covid-19 death by 1%, one BMI point increases it by 6%, having diabetes by 20%, smoking by 27% and being Hispanic by 50%! These different factors are of course not independent (and therefore not additive).

The impact of ethnicity may come in part from genetic predisposing factors, as well as environmental conditions. For example, it is clear that the transmission of SARS-CoV-2 is affected by temperature and humidity as well as air pollution. It is not impossible that the outcome of the disease may also be affected (possibly via respiratory co-morbidities).

Finally, the state of health systems has a considerable impact on the number of Covid-19 deaths. While most patients have only mild symptoms (let alone asymptomatic people), a fraction of patients requires respiratory assistance. In the worst case, these people need to be intubated. A large fraction of these people survive. In health care systems with insufficient ventilator capacity, all of these patients die. This is regardless of the policies undertaken to contain or eradicate the disease. However, these policies are important to keep the number of patients with severe Covid-19 below the limits of the health care system (“flattening the curve”).

Herd immunity collective or lockdown policies

One of the inexhaustible sources of sterile and acrimonious debate is the battle between advocates of “herd immunity” and those of “isolation”. The latter notion is familiar to everyone and fairly simple to understand. If people are isolated, through social distancing and confinement, they cannot be contaminated or contaminate others. Moreover, if we quarantine the sick long enough for them to recover and get rid of the virus, we can eradicate it. Obviously, in the case of SARS-CoV-2, the goal is no longer to eradicate it, as the number of infected people is too large and their geographical distribution too wide. The aim is to reduce the number of severe diseases as much as possible while waiting for a vaccine.

Herd immunity means that a sufficient portion of the population is exposed to the virus and develops an immune response so that the chance of an unexposed person encountering an infected person is very low. For many viruses, the required proportion of the population is just over 80%. Note that this principle of herd immunity is a key aspect of vaccination campaigns. In order for a campaign to keep disease at bay, a certain portion of the population must be vaccinated. Building up such herd immunity also goes hand in hand with isolating vulnerable people until the required % of immunized people are reached (no one suggests, as is sometimes written, that the herd immunity strategy means sacrificing a % of the population corresponding to the IFR, i.e. almost 1% of the world’s population).

Estimates of the % of the population that has developed immunity to SARS-CoV-2 infection vary between 1% and 25% depending on the study. A cohort study in Geneva observed a growth rate of 3% per week. This percentage is obviously far from sufficient for a society to rely on herd immunity. Does this mean that the idea of herd immunity is invalidated? Not at all. At best, it reflects the success of isolation policies. In the long term, the consequences of isolation policies might outweigh the consequences of SARS-CoV-2 infection, especially if effective vaccination or treatments, whether curative or prophylactic, are not forthcoming.

The important thing is that the two approaches are incompatible and therefore the consequences of the application of one cannot be used to judge the other. Moreover, between absolute quarantine and uncontrolled exposure, there is a continuum of possibility. For example, an interesting approach, based on the fact that Covid-19 is mainly severe in elderly subjects or those with co-morbidities, is the concept controlled avalanche based on voluntary infections.

Of course, this post only deals with some of the concepts underpinning the heated debates about Covid-19. However, I hope you will use it as a starting point to explore the diversity of opinions available and avoid the pitfall of snap judgements. Everyone is in the same boat and is looking for the same thing: a resolution to this crisis with the fewest possible casualties and consequences.

Débats sur Covid-19, parle-t-on de la même chose ?

Par Nicolas Gambardella

[English version]

Covid-19 nous affecte tous de manière quotidienne et les discussions autour de la maladie déchaînent les passions, que ce soit chez les politiques, les professionnels de la santé, les scientifiques ou le grand public. Commentaires et débats, en particulier en ce qui concerne la gravité de la pandémie et la façon de la contrer, sont souvent entachés d’inexactitude voire de mauvaise foi du fait de la confusion entre différents concepts et de l’incompréhension de certains d’entre eux. On parle de choses différentes, on compare des choses qui ne sont pas comparables et on détourne les propos des autres.

Je ne suis ni médecin ni épidémiologiste. Mes opinions n’engagent que moi, et je ne suis certainement pas en position de fournir des conseils. Ce billet n’a donc pas pour vocation de prendre position mais d’apporter une certaine clarté sur les concepts balancés de-ci de-là au gré des articles de presse et des tweets rageurs.

Covid-19 et SRAS-CoV-2, est-ce la même chose ?

Non, Covid-19 et SRAS-CoV-2, ne sont pas deux noms désignant la même chose. En effet, Covid-19 est une « maladie », c’est-à-dire un ensemble de symptômes reliés à une cause commune identifiée (par opposition à un « syndrome » qui serait un ensemble de symptômes dont la cause est inconnue, incertaine ou non pertinente). Cette maladie est due à l’infection des humains par le virus SRAS-CoV-2. Cette infection est la cause déclenchant la maladie, ce n’est pas la maladie. Une partie importante de la population n’exhibe aucun symptôme après l’infection par SRAS-Cov-2, on dit que les personnes sont « asymptomatiques ». En d’autres termes, ces personnes ne sont pas malades. Selon les études, cette population est estimée entre un tiers des personnes infectées à plusieurs fois les personnes déclenchant la maladie.

On voit donc qu’il y a une grande différence de gravité selon qu’on parle de l’infection par le virus ou de la maladie. L’infection par le SRAS-CoV-2 n’est globalement pas très grave, comparée par exemple aux infections par le virus Ebola ou le virus de la rage. En revanche, du fait des symptômes respiratoires sévères et de l’absence de traitements, la maladie Covid-19 est plus dangereuse que la rage.

La maladie est diagnostiquée sur la base des symptômes, avant hospitalisation, durant l’hospitalisation or post-mortem. Seule une certaine proportion des patients est testée pour la présence du virus. Il est généralement admis que chez tous les patients présentant les symptômes de Covid-19 et positifs pour le virus, celui-ci est le facteur déclenchant de la maladie. Mais il faut se rappeler que nous sommes tous infectés en permanence pas plusieurs virus (parfois plusieurs souches du même virus). Pour les patients non-testés pour la présence du virus, la décision dépend des politiques locales. D’où par exemple les débats sur la très faible mortalité par Covid-19 en Russie, ou sur la place des décès en maisons de retraite.

En conclusion, toutes les personnes infectées par SRAS-CoV-2 ne sont pas malades de Covid-19, et il est possible que chez une petite partie des personnes diagnostiquées comme malades de Covid-19 (en particulier dans les diagnostics post-mortem) la maladie n’ait pas été déclenchée par SRAS-CoV-2.

Plus haut, j’ai utilisé de mot « mortalité ». Il est donc temps de faire un petit point sur le vocabulaire.

Mortalité, Létalité, taux de létalité par cas, taux de létalité par infection

La « mortalité » d’une maladie représente le nombre de personnes tuées par cette maladie dans une population donnée, incluant les personnes non atteintes de la maladie. La « létalité » d’une maladie représente le nombre de personnes tuées par cette maladie au sein des patients atteints. La létalité d’une maladie ne dépend pas de sa « prévalence », ce qui est le cas de la mortalité. Dans la plupart des pays, la grippe saisonnière a un taux de mortalité beaucoup plus élevé que la fièvre hémorragique due à Ebola, bien que cette dernière ait un taux de létalité bien plus élevé.

Afin d’estimer le taux de létalité d’une maladie infectieuse, il faut mettre en correspondance les valeurs observées de décès dans la population malade. La valeur observée est le taux de létalité par cas (CFR, pour Case Fatality Rate). La valeur estimée est le taux de létalité par infection (IFR, pour Infection Fatality Rate). On pourrait croire qu’avec une évaluation bien construite et attentive ces nombres sont proches. Il n’en ait rien. La première raison est décrite dans le paragraphe précédent (différence entre détection de l’infection et diagnostic de la maladie). La seconde est que le taux de létalité par cas évolue au cours du temps. Les premiers malades diagnostiqués présentent généralement des formes sévères, avec une mortalité élevée. Le taux de létalité observée est donc très élevé (un cas extrême étant 100 % si le premier malade meurt). Au fur et à mesure que le diagnostic est étendu à une population plus large, et que la prise en charge des malades s’améliore, la proportion de personnes survivant à la maladie augmente. Et le taux de létalité par cas se rapproche du taux de létalité par infection, autrement dit du « vrai » taux de létalité. On peut observer cette évolution sur l’image ci-dessous, représentant l’issue des maladies Covid-19 en Espagne (Source https://www.worldometers.info/coronavirus/country/spain/, le 23 mai 2020). Le premier malade a guéri, puis pendant toute une période, 50 % des malades sont décédés, ce qui correspond à peu près à la fraction de décès des patients Covid-19 sous ventilateurs. Le taux de rétablissement augmente dès lors de manière plus ou moins régulière.

Il est très important de comprendre que si 10 % des patients diagnostiqués pour Covid-19 dans une région donnée et à une période donnée décèdent de la maladie, cela ne signifie absolument pas que 10 % des personnes infectées par le virus vont en décéder.

Peut-on comparer la létalité entre pays ? Influence des politiques de test

Afin d’évaluer les taux de létalité par infection, il faut bien entendu mesurer les taux de létalité par cas, et pour ce, être à même de détecter les cas. Il y a deux types de test.

Les tests dits sérologiques détectent la présence dans le sang d’anticorps ciblant le virus. Ces tests permettent de savoir si une personne a été infectée par le passé. Ils présentent deux problèmes principaux. Premièrement, à l’heure actuelle, on ne sait pas exactement quelle proportion des personnes infectées crée des anticorps. Pour les personnes infectées ayant développé Covid-19, il semble que la quantité d’anticorps soit liée à la sévérité des symptômes (probablement car ces derniers sont liés à la quantité de virus, la « charge virale »). La grande inconnue concerne les personnes n’ayant pas développé la maladie. Deuxièmement, ces tests ne sont généralement pas très fiables, et en particulier leur « sensibilité » n’est pas suffisamment élevée (plus de détails dans ce billet).

L’autre type de test consiste à détecter la présence du virus chez les gens activement infectés. Le problème de ces tests est qu’il faut les refaire continuellement. Pendant quelques jours après l’infection, la charge virale n’est pas suffisante pour être détectée. De plus, après quelques semaines, le virus n’est plus détectable. Une personne ayant présenté des symptômes de Covid-19 peut maintenant être négative. Ce type de test est néanmoins celui utilisé pour calculer les taux de létalité par cas. Il est dès lors clair que la politique de test va influencer les calculs. Si un pays ne test que les personnes entrant à l’hôpital, le taux de létalité va être plus important que si un pays teste la population dans son ensemble. Il n’est donc pas surprenant qu’on observe une corrélation très nette entre les taux de létalité par cas et le nombre de tests effectués par million d’habitants. Le graphe ci-dessous est basé sur les données de Worldometer du 10 avril 2020.

Peut-on comparer la létalité entre pays ? Influence de l’espérance de vie

Différentes études ont tenté de calculer un taux de global de létalité de Covid-19 pour l’ensemble de la population, voir par exemple ici, ici, et ici. Ces estimations sont basées sur des données obtenues par différentes méthodes (par exemple, diagnostic de la maladie, détection du virus, détection des anticorps contre le virus) dans des régions disparates, et analysées de manière variées. Il n’est pas surprenant que les résultats soient pour le moins hétérogènes. Ce qu’elles ont en commun est de vouloir déterminer un taux « universel ». Vouloir attacher à une maladie un taux de létalité unique, est une opération toute à faire justifiable. Cependant, ce taux ne peux être valable que pour une population homogène et va nécessairement varier entre populations, rendant les comparaisons difficiles, voire non pertinentes.

Le premier facteur est l’effet de l’âge. La plupart des maladies respiratoires affectent de manière disproportionnée les personnes âgées. De ce fait, les infections par les virus déclenchant ces maladies, comme les grippes, montre une mortalité extrêmement dépendante de l’âge. De manière similaire, une estimation du taux de létalité de Covid-19 en Chine était de 0,0016 % pour les enfants de 0 à 9 ans et croissait progressivement jusqu’à 7,8 % pour les plus de 80 ans, soit un accroissement de près de 5000 fois.

Si la létalité dépend le l’âge, c’est bien également le cas de la mortalité. Cependant, la relation n’est pas directe du fait de la distribution de la population par classe d’âge (la « pyramide des âges »). Il y a beaucoup plus de personnes âgées de 60 à 85 ans que de 85 à 110 ans. Bien que Covid-19 soit beaucoup plus létale dans la seconde population, il y a plus de mort dans la première. Différents pays ayant des pyramides des âges différentes, cela affectera leur taux de létalité estimé global, comme le montre la figure ci-dessous (empruntée de https://theconversation.com/the-coronavirus-looks-less-deadly-than-first-reported-but-its-definitely-not-just-a-flu-133526)

Oui, mais attention, ce raisonnement n’est pas si simple. Comme le montrait déjà l’ONU en 1955, la courbe de mortalité globale est affectée par l’espérance de vie. La mortalité à 25 ans dans un pays dont l’espérance de vie est de 60 ans, est la même que la mortalité à 45 ans dans un pays dont l’espérance de vie est de 70 ans. Cela est dû aux causes sous-jacentes de l’espérance de vie plus faible. Ce qui nous amène aux comorbidités.

Peut-on comparer la létalité entre pays ? Influence des comorbidités

Stricto-sensu, les comorbidités sont les autre troubles qui vont affecter l’issue de la maladie. Mais ici j’entends par là tous les facteurs non liés à l’infection par SRAS-CoV-2 qui vont affecter le taux de létalité de Covid-19. Un papier a étudié un grand nombre de ces facteurs sur une grande cohorte de plus de 96000 patients venant de six continents (le but de l’étude était d’étudier l’effet de médicaments sur Covid-19, mais cela n’est pas le propos ici). Si chaque année de vie accroît le risque de décès par Covid-19 de 1 %, un point d’indice de masse corporelle l’accroît de 6 %, avoir du diabète de 20 %, fumer de 27 % et être d’origine hispanique de 50 % ! Ces différents facteurs ne sont bien entendu pas indépendants (et du coup non additifs).

L’impact de l’origine ethnique peut venir en partie des facteurs de prédisposition génétiques, ainsi que des conditions environnementales. Il est par exemple clair que la transmission de SRAS-CoV-2 est affectée par la température et l’humidité ainsi que la pollution atmosphérique. Il n’est pas impossible que l’issue de la maladie en soit également affectée (possiblement via des comorbidités respiratoires).

Enfin, l’état des systèmes de santé a un impact considérable sur le nombre de décès par Covid-19. Si la plupart des malades n’ont que des symptômes légers (sans même parler des personnes asymptomatiques), une fraction des patients nécessitent une aide respiratoire. Dans le pire des cas, ces personnes doivent être intubées. Une fraction importante de ces dernières survivent. Dans les systèmes de santé n’ayant pas une capacité de ventilateurs suffisante, tous ces patients décèdent. Et ce indépendamment des politiques entreprises pour contenir ou éradiquer la maladie. Cependant, ces politiques sont importantes pour maintenir le nombre de malades atteints de la forme sévère de Covid-19 en deça des limites du système de santé (« aplanir la courbe »).

Immunité collective ou politiques d’isolation

Une des sources inépuisable de débat stériles et acrimonieux est la bataille entre partisans de l’« immunité collective » (aussi appelée immunité grégaire ou de groupe) et ceux de l’«isolement». Cette dernière notion est familière à tout le monde, et assez simple à comprendre. Si on isole les gens, via les gestes barrières et le confinement, ils ne peuvent être contaminés ou contaminer les autres. Si de plus on met les malades en quarantaine suffisamment longtemps pour qu’ils guérissent et se débarrassent du virus, on peut l’éradiquer. Il est bien évident que dans le cas du SRAS-CoV-2, le but n’est plus de l’éradiquer, le nombre de personnes infectées étant trop grand et leur répartition géographique trop large. L’objectif est de diminuer au maximum le nombre de maladies sévères en attendant un vaccin.

L’immunité collective signifie qu’une partie suffisante de la population est exposée au virus et développe une réponse immunitaire pour que la chance qu’une personne non-exposée rencontre une personne contaminée soit très faible. Pour une grande partie des virus, la proportion requise de la population est légèrement supérieure à 80 %. À noter que ce principe d’immunité collective est un aspect clé des campagnes de vaccinations. Pour qu’une campagne tienne une maladie à distance, il faut qu’une certaine partie de la population se fasse vacciner. La construction d’une telle immunité collective va également de pair avec l’isolement des personnes vulnérables jusqu’à ce que le % requis de personnes immunisées soit atteint (personne ne suggère, comme on peut parfois le lire, que la stratégie de l’immunité collective signifie qu’il s’agit de laisser mourir un % de la population correspondant à l’IFR, à savoir près de 1 % de la population mondiale).

L’estimation du % de la population ayant développé une immunité contre l’infection par SRAS-CoV-2 varie selon les études entre 1 % et 25 %. Une étude suivant une cohorte à Genève a observé qu’elle croît de 3 % par semaine. Ce pourcentage est évidemment loin d’être suffisant pour qu’une société puisse se reposer sur une immunité collective. Cela signifie-t-il que l’idée d’une immunité collective est invalidée ? Pas du tout. Au mieux, cela reflète le succès des politiques d’isolement. Dans le long terme, les conséquences des politiques d’isolement pourraient dépasser les conséquences de l’infection par SRAS-CoV-2, surtout si une vaccination ou des traitements efficaces, curatifs ou prophylactiques, ne voient pas le jour bientôt.

L’important est de comprendre que les deux approches sont incompatibles et ne peuvent donc pas engendrer des conséquences permettant d’évaluer l’autre. De plus entre la quarantaine absolue et l’exposition non contrôlée, il existe un continuum de possibilité. Par exemple, une approche intéressante, basée sur le fait que Covid-19 est principalement sévère chez les sujets âgés ou possédant des comorbidités, est l’avalanche contrôlée, reposant sur des infections volontaires.

Ce billet n’aborde bien évidemment qu’une partie des concepts à l’origine des débats houleux sur Covid-19. Mais j’espère qu’il vous servira de point de départ pour explorer la diversité des opinions disponibles et éviter l’écueil du jugement à l’emporte-pièce. Tout le monde est dans le même bateau, et recherche la même chose, à savoir une résolution de cette crise avec le moins de victimes et de conséquences possibles.

Des traductions plus qu’exactes

Par Nicolas Gambardella

[Version anglaise]

Pouvons-nous fournir des traductions plus qu’exactes ?

Fournir une traduction précise est la mission essentielle d’un traducteur linguistique. Tout traducteur professionnel doit y parvenir, et tout échec équivaut à une faute professionnelle. Une traduction précise est également la référence utilisée pour évaluer la traduction automatique. Toutefois, ne devrait-on pas considérer cette obligation comme une ligne de base ? Si oui, qu’est-ce qui est « plus qu’exactes » ?

Pour répondre à ces questions, nous devons d’abord définir ce que nous entendons par traduction exacte. Pour traduire un texte avec exactitude, nous devons conserver la sémantique du document source. Tout d’abord, nous devons transmettre le sens des mots ou des expressions, et ce dans le contexte des phrases, des paragraphes et de l’ensemble du texte. Outre le choix des mots, il faut respecter l’orthographe correcte dans la langue cible. Ensuite, nous devons respecter scrupuleusement les règles de grammaire et de ponctuation. Le respect de ces deux principes permet d’obtenir une traduction adéquate qui sera utile dans la plupart du temps, un résultat parfois obtenu sur des textes simples non techniques par une traduction automatique basée sur l’IA, comme Google Translate ou DeepL.

Est-ce suffisant ? Pouvez-vous attendre davantage d’un traducteur professionnel ? Bien sûr que oui ! Et c’est même un dû !

Une excellente traduction est plus qu’exacte. En plus de véhiculer le sens du document source, elle doit communiquer le message comme l’avait prévu ses auteurs.

Pour ce faire, le traducteur doit parfois prendre des décisions concernant le niveau de technicité à adopter. Ces choix sont particulièrement importants dans le domaine biomédical, où la granularité des concepts et leurs relations diffèrent selon les langues (bien que le traducteur y soit confronté dans la plupart des domaines techniques). Par exemple, il n’y a pas toujours de correspondance directe entre les terminologies anglaises et françaises pour la description des parties anatomiques ou des symptômes. Les médecins français ont également tendance à utiliser des termes plus techniques que les médecins britanniques lorsqu’ils s’adressent à leurs patients. Par conséquent, afin de conserver le même impact, un document source donné devra être traduit de manière légèrement différente si le public visé est, par exemple, un chirurgien censé reproduire une opération, un médecin qui doit comprendre une maladie, des patients à la recherche d’informations pour étayer des décisions thérapeutiques ou bien encore le grand public. On devra traduire « disease burden » en « charge de morbidité » dans un document épidémiologique, mais probablement en « impact de la maladie » dans une présentation marketing.

De tels choix techniques reposent sur l’expertise passée, ce pourquoi les traducteurs possèdent des domaines de prédilection et qu’ils se bonifient avec le temps comme du bon vin. Mais ils sont également le fruit de recherches spécifiques, menées spécifiquement pour chaque projet de traduction. Un bon exemple est la traduction des fiches de données de sécurité (le document décrivant les caractéristiques, les effets possibles sur la santé ainsi que les précautions à prendre avec un produit chimique ou un médicament). Les titres des rubriques comme le contenu sont codifiés et spécifiques à chaque pays. Connaître les deux langues suffira à communiquer le sens du texte, mais le résultat de la traduction ne sera pas un document valable. Pour cela, il faut se plonger dans les spécifications de ces fiches de sécurité, ce dans les langues d’origine et d’arrivée. C’est un des domaines où la traduction humaine ne peut encore, probablement pour un moment, être remplacé par la traduction automatique.

Le sens des mots, la sémantique, n’est cependant pas le seul facteur à prendre en compte pour peaufiner une traduction. Le ton du texte et l’idiome spécifique à utiliser (qu’il s’agisse d’un véritable dialecte ou du jargon d’un cercle spécialisé) auront également une forte incidence sur la transmission d’un message. Selon le type de document, la longueur des phrases, le rythme et les choix ponctuations peuvent devoir être adaptés pour atteindre la population cible. L’esthétique d’un texte, son accroche générale, est une pierre angulaire du marketing. Et ce, que l’on traduise des brochures, des sites web ou… des publications de recherche et des demandes de subvention !

Enfin, la cerise sur le gâteau, qui différencie peut-être un linguiste spécialisé d’un simple traducteur, est la correction du document source. Cette démarche doit être entreprise avec tact, et peut-être seulement après qu’un traducteur et un client aient établi un certain niveau de confiance. Ces corrections peuvent être de nature typographique ou plus approfondies, comme des corrections factuelles ou des conseils sur la façon de communiquer le message.

Tout cela contribuera à une traduction plus qu’exacte. Et tout cela est, pour l’instant et pour encore longtemps, hors de portée des approches les plus avancées de traduction automatique.

More than accurate translations

By Nicolas Gambardella

[French version]

Can we deliver a more than accurate translation?

Delivering an accurate translation is the core mission for a language translator. Any professional translator should achieve this, and any failure to do so is tantamount to professional negligence. Accurate translation is also the gold standard on which to assess automated translation. However, should this not be considered as the minimum? If so, what is “more than accurate”?

To answer those questions, we must first define what we mean by accurate translation. To translate a text accurately, we must conserve the semantics of the source document. Firstly, we must convey the meaning of the words or expressions, within the context of sentences, paragraphs, and the entire text. In addition to choosing the right words, this includes respecting the correct spelling in the target language. Secondly, we must follow the rules of grammar and punctuation scrupulously. Following these two principles will provide an adequate translation useful in most contexts, and is sometimes achieved by machine translation based on AI, such as Google Translate or DeepL on simple non-technical texts. 

Is that sufficient? Can you expect more from a professional translator? Of course, you can. And you must!

An excellent translation is more than accurate. On top of conveying the meaning of the source, it should deliver the message as intended by its authors.

To do so, the translator must sometimes make decisions regarding the level of technicality to adopt. These choices are particularly important in the biomedical domain, where the granularity of concepts and their relationships differ between languages (although the translator will face them in most technical domains). For instance, there is not always a one-to-one mapping between the English and French descriptions of anatomical parts or symptoms. French doctors also tend to use more technical terms when talking to patients than British doctors. Therefore, to conserve the same impact, a given source document will have to be translated slightly differently if the intended audience is, e.g., a surgeon who is supposed to reproduce a procedure, a physician who needs to understand a condition, patients looking for information underpinning therapeutic decisions, or the general public. “Disease burden” should be translated into “charge de morbidité” in an epidemiological document, but probably into “impact de la maladie” in a marketing presentation.

Such technical choices rely on past expertise, which is why translators have specialities and why they become better with time like good wine. But they also emerge from dedicated research, conducted for each translation project.  A good example is the translation of safety data sheets (the document describing the characteristics, possible health effects and precautions to be taken with a chemical compound or a drug). Both the headings and the contents are coded and country-specific. Knowledge of both languages will be sufficient to communicate the meaning of the text, but the result of the translation will not be a valid document. To do this, one must read the specifications of such safety data sheets both in the source and target languages. This is one of the areas where human translation cannot yet, probably for a while, be replaced by machine translation.

The meaning of words, the semantics, is not the only factor to take into account when polishing a translation, though. The tone of the text and the specific dialect to use (whether actual language or specialist circle’s jargon) will also strongly affect the delivery of a message. Depending on the type of document, the length of sentences, the rhythm, and the punctuation might need tuning to reach the target population. The aesthetic of a text, its general catchiness, is a cornerstone of marketing. And so, whether one translates brochures, websites, or… research publications and grant applications!

Finally, the cherry on the cake, which differentiates perhaps a specialist linguist from a mere translator, is the correction of the source document. This move is something that must be done tactfully, and perhaps solely after a translator and client have established some level of trust. Such corrections might be of proofreading nature (corrections of typos) or more profound, including factual corrections or advice on delivery. 

All this will contribute to a more than accurate translation. And all this is, currently and for the foreseeable future, out of reach of the most advanced Machine Translation approaches. 

Pourquoi utiliser un test détectant 90 % des cas peut parfois être du Pile ou Face

Par Nicolas Gambardella

[Version anglaise]

Les tests sont au cœur de la plupart, sinon de la totalité, des stratégies proposées pour lutter contre la pandémie de Covid-19. La famille d’approches « identifier et éliminer » repose sur l’identification des cas de personnes infectées par le virus du SRAS-CoV-2 et sur leur isolement ou leur traitement. La famille d’approches « acquérir une immunité » repose sur l’identification des personnes qui ont été infectées par le passé et qui sont maintenant immunisées contre la maladie, afin de pouvoir les libérer. Enfin, les stratégies de dépistage influent également sur l’estimation de la létalité de cette maladie (voir remarque à la fin de ce billet).

Au moment où j’écris ces lignes (13 avril 2020), le gouvernement britannique vient de rejeter tous les tests d’anticorps sanguins qu’il a testés, c’est-à-dire les tests qui identifient les personnes ayant été en contact avec le virus dans le passé, et supposées être immunisées. Au même moment, on peut lire de nombreux rapports de « tests peu fiables », ne détectant « qu’un tiers des cas ». Comment se fait-il que des professionnels aient conçu des tests si « mauvais » ? Quelle doit être la qualité d’un test pour qu’il soit utile ? Et pourquoi un test qui repère correctement 90 % des personnes infectées ne vaut-il pas mieux qu’un pile ou face pour dire si vous êtes réellement infecté ou non ?

Allons droit au but afin que vous puissiez arrêter de lire et reprendre des activités de confinement plus agréables, si vous le souhaitez. Puis nous introduirons les maths.

Si nous disposons d’un test qui identifie correctement 90 % des personnes infectées (une sensibilité de 90 %), et qui signale correctement comme négatif 90 % des personnes non infectées (une spécificité de 90 %), mais qu’en même temps 90 % de l’ensemble de la population n’a jamais été infectée (une prévalence de 10 %), et que nous testons ensuite un échantillon aléatoire de cette population, nous obtiendrons la même quantité de vrais et faux positifs. En d’autres termes, si vous êtes testé positif, les chances que vous soyez réellement immunisé sont… 50 % ! Vous pouvez facilement comprendre ça avec l’image suivante.

Le fond bleu pâle représente la population qui n’a pas été infectée, tandis que le fond rose pâle représente la population qui a été infectée (la prévalence). Le test des personnes roses est positif, tandis que celui des personnes bleues est négatif. Comme vous pouvez le voir, il y a le même nombre de personnes roses (9) sur les fonds rose pâle et bleu pâle. Oui, le test est positif pour 9 personnes infectées sur 10, alors qu’il n’est positif que pour 1 personne non infectée sur 10. Mais il y a 9 personnes non infectées pour chaque personne infectée, ce qui fait pencher la balance dans l’autre sens.

Ce n’était qu’un exemple, simplifié puisque j’ai supposé des sensibilité et spécificité égales. Pour un test détectant la présence de quelque chose, la sensibilité serait généralement inférieure à la spécificité (manquer quelque chose sera plus probable que signaler quelque chose qui n’est pas là). Par ailleurs, comment les chiffres changent-ils lorsque nous modifions la prévalence, c’est-à-dire la proportion de la population qui a été infectée ? Venons-en aux maths.

Le calcul est basé sur le théorème de Bayes, du nom du révérend Thomas Bayes. Ce billet ne porte pas sur le théorème lui-même, sa signification ou sa démonstration. Si vous souhaitez en savoir plus, la chaîne YouTube 3Blue1Brown propose d’excellentes vidéos sur le sujet (en anglais) :

The quick proof of Bayes’ theorem

Bayes theorem

Pour aujourd’hui, acceptez juste l’affirmation suivante :

Vos chances d’être vraiment infecté si votre test est positif sont égales aux chances d’être infecté multipliées par les chances d’obtenir un test positif si vous être infecté, proportionnellement à la population dont le test est revenu positif (que les personnes aient été infectées ou non).

En mathématiques, on écrirait (P(X) étant la « probabilité de X » et la barre verticale « | » représentant une probabilité conditionnelle, à savoir la probabilité que le terme de gauche soit vrai si le terme de droite l’est) :

P(Infecté | Positif) = P(Infecté) x P(Positif | Infecté) / P(Positif)

Cette équation, le théorème de Bayes, vient du fait que :
P(Positif) x P(Infecté | Positif) = P(Infecté) x P(Positif | Infecté)
C’est évident si l’on considère l’image ci-dessous. Qu’on dessine le cercle de gauche d’abord, puis celui de droite ou le contraire, on obtient la même intersection.

Le dénominateur, P(Positif), représentant toutes les personnes testées positives, est la somme des personnes ayant correctement été testées positives après infection et de celles ayant incorrectement été testées positives alors qu’elles n’étaient pas infectées :

P(Positif) = P(Infecté) x P(Positif | Infecté) + P(NonInfecté) x P(Positif | NonInfecté)

Cette probabilité, P(Infecté | Positif), est particulièrement importante dans le cas des tests d’anticorps. Personne ne veut dire à une personne qu’elle est immunisée si elle ne l’est pas !

De la même façon, nous pouvons calculer les chances que quelqu’un ayant un test négatif ne soit effectivement pas infecté. Ceci est très important au début de l’épidémie, lorsque l’on veut éviter la propagation de la maladie par les gens infectés.

P(NonInfecté | Négatif) = P(NonInfecté) x P(Négatif | NonInfecté) / P(Négatif)

Le dénominateur, P(Négatif), représentant toutes les personnes testées négatives, est la somme des personnes ayant correctement été testées négatives en n’étant pas infectées et de celles ayant incorrectement été testées négatives bien qu’étant infectées :

P(Négatif) = P(NonInfecté) x P(Négatif | NonInfecté) + P(Infecté) x P(Négatif | Infecté)

Voyons ce que l’on obtient avec des valeurs numériques. Nous avons trois paramètres et leurs compléments. Disons que nous avons une maladie affectant 5 % de la population (la prévalence).
P(Infecté) = 0,05
P(NonInfecté) = 0,95

80 % des personnes infectées sont reconnues par le test (la sensibilité).
P(Positif | Infecté) = 0,8
P(Négatif | Infecté) = 0,2

95 % des personnes qui ne sont pas infectées ne présentent pas de test positif (la spécificité).
P(Négative | NonInfecté) = 0,95
P(Positif | NonInfecté) = 0,05

Alors, si vous êtes testé positif, quelles sont les chances que vous soyez vraiment immunisé ?

0,05 x 0,8 / (0,05 x 0,8 + 0,95 x 0,05) = 0,457

46 % ! En d’autres termes, il y 54 % de chances que vous ne soyez pas immunisé, bien que votre test soit positif… De la même manière, si votre test est négatif, les chances que vous soyez infectés sont de 0,2 %. Cela paraît négligeable, mais cela peut être suffisant pour laisser sortir un patient infectieux. De plus, ce chiffre augmente avec la prévalence. De combien ? Le graphique ci-dessous décrit l’évolution des probabilités d’être correctement testé positif ou négatif alors que la proportion de la population infectée augmente.

C’est plutôt déprimant. Une façon d’améliorer les résultats est évidemment de disposer de meilleurs tests. Cependant, le « retour sur investissement » s’amenuise à mesure que la qualité des tests s’améliore. Une autre solution, consiste à multiplier les tests, si possible avec des tests différents. C’est, par exemple, la base du test combiné pour la trisomie 21. Je vous laisse calculer les probabilités dans le cas de deux tests fournissant des résultats identiques.

Une remarque sur la létalité de Covid-19

Pourquoi ai-je écrit plus haut que la précision des tests était pertinente pour estimer la létalité de la maladie ? Vous trouverez ci-dessous un graphique du rapport entre le nombre de décès par nombre de cas et le nombre de tests par million de personnes, pour tous les pays ayant déclaré au moins un décès et au moins dix tests (données du 10 avril 2020).

Il est assez clair qu’il existe une corrélation. Plus les tests sont nombreux, plus le nombre de décès estimé est faible. Cela montre que nous surestimons probablement la létalité de la maladie, et que nous sous-estimons sa prévalence (et donc son infectiosité). Que ce résultat soit exact ou non, la capacité à déduire correctement le nombre réel de personnes infectées ou immunisées est assez cruciale. En outre, la sensibilité et la spécificité des tests utilisés par les différents pays doivent être prises en compte lors de l’estimation de la prévalence et du taux de létalité.

Why using a test that detects 90% of cases can be no better than the flip of a coin?

By Nicolas Gambardella

[French version]

Testing is at the core of most, if not all, strategies proposed to fight the Covid-19 pandemic. The “identify and squash” family of approaches relies on identifying cases of people infected by the SARS-CoV-2 virus and isolate and/or treat them. The “get immune” family of approaches relies on identifying people who were infected in the past, and are now immune to the disease, so we can release them. Finally, testing strategies also affect the estimation of how lethal this disease is (see note at the end).

As I write this post (13 April 2020), the UK government just rejected all the blood antibody tests it assessed, the tests that identify people who were in contact with the virus in the past, and supposedly immune. In a similar vein, we can see many reports of “unreliable tests”, catching “only one-third of the cases”. How come professionals designed such “bad” tests? How good a test must be to be useful? And why is a test that correctly spots 90% of infected people not better than the flip of a coin at telling if you are actually infected or not?

There is a short and a long answer. I will give the short one first, so you can stop reading and go back to more enjoyable confinement activities if you so wish.

If we have a test that correctly identifies 90% of the people who were infected (a sensitivity of 90%), and correctly reports as negative 90% of people who were not infected (a specificity of 90%), but at the same time 90% of the whole population was never infected (a prevalence of 10%), and then we test a random sample of this population, we will get the same amount of true and false positive. In other words, if you are tested positive, the chances that you are actually immune is… 50%! You can easily grasp that on the picture below.

The light blue background represents the population that has not been infected while the light pink background represents the population that has been infected (the prevalence). The blue people are tested negative, while the pink people are tested positive. As you can see, we get the same amount of pink people (9) on light pink and light blue backgrounds. Yes, the test comes back positive 9 out of 10 infected people, while it comes back positive only 1 out of 10 non-infected people. But there are 9 non-infected people for each infected one, which tips the balance the other way.

Now, that was just one example, simplified since I assumed equal sensitivity and specificity. For a test detecting the presence of something, sensitivity would typically be lower than specificity (missing something will be more probable than reporting something that is not there). Also, how do the figures change when we change the prevalence, that is the proportion of the population that got infected? Let’s get to the actual calculations.

The basis for such calculus is the Bayes’ theorem, named after the Reverend Thomas Bayes. This post is not about the theorem itself, its meaning or its demonstration. If you are interested to know more, the YouTube channel 3Blue1Brown provides excellent videos on the topic:

The quick proof of Bayes’ theorem

Bayes theorem

For our purpose, you just have to accept the following statement:

Your chances to be actually infected if you tested positive are equal to the chances to be infected in the first place multiplied by the chances of testing positive if actually infected, scaled to the size of the population that tested positive (whether actually infected or not).

In mathematical terms, we would write:
(P(X) means “Probability of X”, the vertical bar “|” represents a conditional probability, the probability that what is on the left side is true given that what is on the right side is true)

P(Infected | Positive) = P(Infected) x P(Positive | Infected) / P(Positive)

This equation, Bayes’ theorem, comes from the fact that:
P(Positive) x P(Infected | Positive) = P(Infected) x P(Positive | Infected)
This is obvious from the image below. Whether you draw the left circle first, then the second, or the other way around, the overlapping surface is still the same.

The denominator, P(Positive), representing all people who tested positive, is the sum of the people who rightly tested positive while being infected and the people who wrongly tested positive while not being infected:

P(Positive) = P(Infected) x P(Positive | Infected) + P(NotInfected) x P(Positive | NotInfected)

This probability, P(Infected | Positive), is particularly important in the cases of antibody tests. We do not want to tell a person they are immune if they are not!

Similarly, we can compute the chances that someone who tested negative is actually not infected. That is very important at the beginning of the epidemics when we want to stop infected people to spread the disease.

P(NotInfected | Negative) = P(NotInfected) x P(Negative | NotInfected) / P(Negative)

The denominator, P(Negative), representing all people who tested negative, is the sum of the people who rightly tested negative while not being infected and the people who wrongly tested negative while in fact being infected:

P(Negative) = P(NotInfected) x P(Negative | NotInfected) + P(Infected) x P(Negative | Infected)

Let’s see what we get with actual values. We have three parameters and their complement. Let’s say we have a disease affecting 5% of the population (the prevalence).
P(Infected) = 0.05
P(NotInfected) = 0.95

80% of infected people are caught by the test (its sensitivity).
P(Positive | Infected) = 0.8
P(Negative | Infected) = 0.2

95% of the people who are not infected will not be tested positive (the specificity).
P(Negative | NotInfected) = 0.95
P(Positive | NotInfected) = 0.05.

Now, if you are tested positive, what are the chances you are actually immune?

0.05 x 0.8 / (0.05 x 0.8 + 0.95 x 0.05) = 0.457

46%! In other words, there are 54% chances that you are not actually immune despite being labeled as such by the test… Conversely, if you are tested negative, the chances that you are actually infected are 0.2%. The number looks pretty small, but this can be sufficient to “leak” an infectious patient outside. And this number grows as the prevalence does. How much? The plot below depicts the evolution of probabilities to be correctly tested positive and negative when the proportion of the infected population increases.

That looks pretty grim, doesn’t it? One way of improving the results is obviously to have better tests. However, the “return on investments” becomes increasingly limited as the quality of tests improves. Another solution, lies in multiple testing, if possible with different tests. This is, for instance, the basis of combined test for Down’s Syndrome. I will let you work out the math if you get twice the same result with two independent tests.

Note about Covid-19’s lethality

Why did I write above that the accuracy of testing was relevant for estimating the lethality of the disease (the Infection Fatality Rate, IFR)? Below is a plot of the ratio number of deaths per number of cases towards the number of tests per million people, for all countries that reported at least 1 death and at least 10 tests (data from 10 April 2020).

It is pretty clear that there is a correlation, the more tests being done, the lower the estimated fatality. This shows that we probably overestimate the lethality of the disease, and underestimate its prevalence (and therefore its infectiosity). Whether this result is accurate or not, the ability to correctly infer the actual number of people infected and/or immune is pretty crucial. Moreover, the sensitivity and specificity of the tests used by different countries should be taken into account when estimating prevalence and fatality rate.

Tips for translating a novel

By Nicolas Gambardella

In a previous blog post, I already covered a few tips for new translators. These, of course, apply to the translation of any text document. At aSciStance, I specialize in technical documents, in particular from the health and life sciences sectors. However, I have a secret life. In the evenings, I translate sci-fi novels. Besides the rules described before, there are a few do and don’t that apply when translating a novel. Here are some, in no particular order.

The most important thing when translating a novel (and presumably writing it in the first place) is to keep the reader enthralled. This generally requires an easy and smooth reading (I will put Lovecraft and Joyce aside…). As a result, the form becomes very important, and you should not necessarily need to stick 100% to the source. A word for word translation will be close to unreadable. Moreover, sentence segmentation tends to vary between languages. Therefore, some splitting and merging will be unavoidable. If the translation of a long proposition with many adjectives results in a boring or confusing piece of text, do not hesitate to replace it with a terse and punchy alternative. Conversely, depending on the source and target language, you might want to expand a single word in a lengthier piece of text. Such an expansion might also be needed if a piece of information is common knowledge in the population using the source language but not the population reading the target one (for instance, historical events or monuments).

You should therefore not hesitate to “find your voice”. The actual story is obviously paramount. However, the rhythm, the tone of the dialogs, the level of language, all participate in telling this story. These will change between languages. When I translated The Night of the Purple Moon, I chose to define three different levels of languages for three different groups of teenagers. The main protagonists were brought up in an upper-middle-class setting, where the father was a librarian. Their language is correct, but not too posh. While to distinguish between some of the unruly boys, I used a more familiar language register, even a bit of slang (although profanities were a no-no). On the opposite, a couple of children were foreigners, coming from a country with different levels of deference. They learned English in books and make use of a very polite, slightly old fashion, language (for instance, calling their parents “mother and father” rather than “mom and dad”).

That said, each novel possesses specific rhythm, tone, terminology, and “feeling”. Sometimes they are part of an author’s trademark and should be respected as much as possible. Lovecraft’s stories would have a very different impact if his “wholly abominable and unspeakable horrors” had been translated into smooth and easy to read pieces. If you choose to change some of those characteristics, make sure to be consistent throughout.

Immerse yourself into the novel’s universe. What counts in a story is self-coherence, not accuracy. Particularly if you are translating a science-fiction novel, like NOPM and have, like me, a biomedical background, you should not be offended that bacteria or viruses can survive the cold void of space – and the constant radiation – or that they can kill a human by recognizing sex hormones they never encountered before. After all, in science-fiction, there is the word fiction…
Do not try to be too exact either. In an imaginary setting, translate 100 miles into 100 km, rather than 160.934 km. It just means “quite a long distance”. Except of course, if this distance is important for the story. As any ultra-marathon runner will tell you, having to travel 100 km or 100 miles are two very different endeavors.

However, do not hesitate to correct the factual errors the author could have committed which you think could bother some readers. Obviously, only do so with the author’s permission. I will not list the instances where I did that in NOPM (you will have to read the English and French versions). But sometimes such as correction can kill two birds with one stone. In NOPM, the source mentioned that the germs were coming with the space dust. Space dust was not very clear to me. If we were talking about cosmic dust, it is a bit too thin to contain germs. Moreover, “poussière de l’espace” sounds a bit childish in French. However, comet dust fits well with the story and sounds better in French, as “poussière de comète” (although to be fair “poussière cosmique” sounds even cooler! #NoteForFutureTranslations)

Try to be consistent but not repetitive. If a certain item is always referred by a certain name in the source, try to always use the same term in the translation. In NOPM, the organisms that killed humans are always called “germs”. I chose to use “microbes” and stuck to it. I did not use “germes” or “bacteries”. Similarly, in Colony East (the follow-up from NOPM which I am translating as I am writing this blog post), I chose to translate “pills” by “comprimés”, and I do not use “pilules” or “médicament”. Such a consistency facilitate the reading, in particular for younger readers.

However, use such a consistency sparingly when it comes to entire expressions. It is sometimes quite annoying to find exactly the same description, or the same bit of dialog, several times. This is in particular true if the occurrences are in the same chapter. This problem is increased by Translation Memory-based CAT tools, and you should be cautious when using such tools (which I do. I use Cafetran Espresso).

Which brings me to the final pieces of advice. Now that you have translated your text, check it, check it, check it.

1) Use a Machine Translation engine (such as DeepL) to reverse translate your work. Are there inconsistencies between the result and the original text? Does that reveal a potential for confusion in the reader’s mind?

2) Proofread your work with dedicated software. I use three of them at the moment, Grammarly, Grammalecte, and LanguageTool. Yes, you are a fantastic linguist. But even the keenest eye might miss the occasional typo or doublet.

3) Read back every chapter after completing the translation. Read them aloud. Reading a piece of text aloud forces you to slow down, be more attentive to every word, and better detect subtle grammatical errors.

Here are a few links to other relevant web pages. Please feel free to suggest others in your comments.

Renormalizing data with Arcsinh instead of log

By Nicolas Gambardella

Do you need to quickly normalize data but are bothered by null of negative values? You can use the Inverse hyperbolic sine, Arsinh, function instead of a simple log function. This approach also allows for treating differently small and high values. Arsinh is defined as:

Firstly, since x+sqrt(x²+1) is always strictly positive, arsinh is defined for all real values, contrary to log which is only defined for strictly positive numbers. Furthermore, as can easily be seen, for small values of x, the function tends to ln(x+1), something often used to overcome the 0 measurements. For large values of x, arsinh(x) progresses as log(x).

Let’s say we have a dataset that is quite noisy, with unevenly spread sampling, and that includes an unwanted baseline. Here is a made-up dataset:

To create it, we generated 1000 lognormal-distributed sampling values x. The variable value is equal to the sampling value, plus a random noise in which the standard deviation varies as the ratio of sqrt(x)/x (biological noise), plus a noisy constant technical baseline (5 plus a normal noise with SD=0.01) .

We are clever, and notice the background noise, so we subtract it:

Now, the first issue is that plenty of values are negative. In some cases, your normalization will fail. Sometimes, the normalization will proceed, ditching values (as R says, “Warning message: NaNs produced”). As can be seen below, there is a large area sparsely populated on the left, for low values of x.

If, on the contrary, we use arsinh, we rescue all those values.


Arsinh is used for instance in flow cytometry and in mass spectrometry. It is one of the corrections used by the R package BestNormalize

Merry Christmas in all languages

By Nicolas Gambardella

It is that time of the year again. Although the “modern” celebrations are supposed to be of relevance for Christian only, this is really a celebration of the solstice (whether the summer or the winter one depending on the side of the globe you are living in). So let’s wish each other a merry day.

Several web pages list ways of saying Merry Christmas in many languages. However, those pages are generally incomplete, sometimes incorrect (I loved the one that wrote “Martha snores” instead of Merry Christmas in a minority language). Here, I list all the Merry Christmas I could collect, with links to the respective Wikipedia pages. I tried to present them in the original script as well as the latin one, although some are hard to write in Unicode.
Please contact me if you disagree with one of my choices, or if you are aware of a missing entry. The entries I consider validated (using various sources) are in boldface.

Acholi
Uganda
Krismasi mkunjufu

Afrikaans
South Africa, Namibia
Geseënde Kersfees

Ahtna (central)
Alaska
C’ehwggelnen Dzaen

Akan
Ghana, Ivory Coast, Benin
Afishapa

Albanian
Albania, Kosovo
Gëzuar Krishtlindjet

Aleut
Native American, Alaska
Kamgan Ukudigaa

Alsatian
France
E güeti Wïnâchte

Alutiiq/Sugpiak
Native American
Nunaniqsaakici Aʀusistuami

Amharic
Ethiopia
Melikam Gena
መልካም ገና

Apachean
Apache, Navajo
Gozhqq Késhmish

Arabic (yet to be developed into different forms)
Eid Milad Majid
عيد ميلاد مجيد

Aragonese
Spain
Feliz nadal

Armenian
Armenia
Shnorhavor Surb Tsnund
Շնորհավոր Սուրբ Ծնունդ

Aromanian
Balkans
Cărciun hărios

Ashanti
Ghana
afehyia pa

Assamese
India (Assam)
meri khristmas
মেৰী খ্রীষ্টমাচ

Asturian
Spain
Bones Navidae

Astur-leonese
Spain
Felís Ñavidá

Aymara
Peru, Bolivia, Chile
Sooma nawira-ra

Azerbaijani
Azerbaijan
Milad bayramınız mübarək

Bambara/Bamanankan
Mali
Ala ka Noeli diya(?)

Basque
France, Spain
Eguberri on

Batak-Karo
Indonesia
Selamat wari Nata

Bavarian
Germany
Šene Veinåhd

Belarusian
Belarus
z Kaljádami
З Калядамі

Bemba
Zambia, Dem Rep Congo, Tanzania, Bostwana
Kristu abe nenu muli ino nshiku nkulu ya Mwezi

Bengali
Bangladesh, India
shubho bôṛodin
শুভ বড়দিন

Srećan Božić Berber (orig alph is neo-Tifinagh)
MENA
Tameghra tameggazt
ⵜⴰⵎⴻⵖⵔⴰ ⵜⴰⵎⴻⴳⴳⴰⵣⵜ

Bikol/Bicolano
Philippines
Maogmang Pasko

Bildts
Netherlands
Noflike Korsttydsdagen

Bislama
Vanuatu
Mi wisim yufala eerywan one gutfala Krismes

Blackfoot
Native American
I’Taamomohkatoyiiksistsikomi
ᖱᒣᖳᒐᒉᑊᖿᒪᔪᖱᖽᐧᒡᒧᐧᖾᒍ

Bosnian
Bosnia & Herzegovina
Srećan Božić

Breton
France
Nedeleg laouen

Bulgarian
Bulgaria
Vesela Koleda
Весела Коледа

Burmese
Myanmar
pyawshwinsaw hkarahchcamaat hpyitparhcay
ပျော်ရွှင်သောခရစ္စမတ်ဖြစ်ပါစေ

Cantonese
China
Seng Dan Fai Lok
聖誕快樂

Cape Verdean
Cap Verde
Boas Festas

Catalan
Andorra, Spain
Bon Nadal

Cebuano
Philippines
Maayong pasko

Celtic
Wales
Nadolig Llawen

Central Dusun (Bunduliwan)
Malaysia
C’ehwggelnen Dzaen

Chabacano/Chavacano
Philippines
Feliz Pascuas

Chamorro
Guam, Marianas
Felis Nåbidåt

Chechen
Chechen republic
Kerlaču şarca
Керлачу шарца

Cherokee
Native American US
ulihelisdi danisdayohihv
ᎤᎵᎮᎵᏍᏗ ᏓᏂᏍᏓᏲᎯᎲ

Chewa/Chichewa/Nyanja
Zambia, Malawi, Mozambique, Zimbabwe
Khrisimasi yabwino

Cheyenne
Native American, US
Hoesenestotse

Choctaw
Native American, US
Yukpa, Nitak Hollo Chito

Chuukese
Caroline Islands
Neekirissimas annim

Coastal Kadazan
Malaysia
Kotobian tadau Krismas

Comanche
Native American, US
Tsaa Nʉʉsukatʉ̱ Waa Himarʉ

Coptic
Egypt
Picristos afmansf
Ⲡⲓⲭⲣⲓⲥⲧⲟⲥ ⲁⲫⲙⲁⲛⲥⲫ

Cornish
United Kingdom
Nadelik Lowen

Cree
Native American, US
Mitho Makosi Kesikansi
ᒥᑐ ᒪᑯᓯ ᑫᓯᑲᓐᓯ

Corsican
France
Bon Natale

Creek/Muscogee
Native American, US
Afvcke Nettvcakorakko

Crimean Tatar
Crimea
Yañı yılıñız hayırlı olsun
Янъы йылынъыз хайырлы олсун

Croatian
Croatia
Sretan Božić

Czech
Czech Republic
Veselé Vánoce

Cuyonon
Philippines
Malipayeng Paskoa

Dagbani
Ghana
Ni ti Burunya Chou

Danish
Denmark, Germany
Glædelig Jul

Dari/Farsi
Afghanistan
Christmas Mubarak
کرسمس مبارک

Dutch
Belgium, Netherlands
Vrolijk Kerstfeest

Elfdalian
Sweden
Guäd Juäld

Edo
Nigeria
Iselogbe

Emilian-romagnol
Italy
Bon Nadèl

English
United Kingdom, USA
Merry Christmas

Erzya
Russia
Od ije dy Roştova marto
Од ие ды Роштова марто

Esperanto
N/A
Feliĉan Kristnaskon

Estonian
Estonia
Häid jõule

Ewe
Ghana, Togo
Blunya na wo

Extremaduran
Spain
Felís Naviá

Faroese
Denmark
Gleðilig Jól

Fijian
Fidji
Marau na Kerisimasi

Filipino
Philippines
Maligayang Pasko

Flemish
Belgium
vroolek kerstfeejst
vroolek kerstfeejst

Finnish
Finland
Hyvää Joulua

French
France, Monaco, Belgium, Switzerland, Canada, Africa
Joyeux Noël

Frisian,Frysk,West-Frisian
Netherlands
Noflike Krystdagen

Friulian
Italy
Bon Nadâl

Fula/Fulani
Niger, Nigeria, Benin, Cameroon, Chad, Sudan, Togo, Guinea, Sierra Leone
Jabbama be salla Kirismati

Galician
Spain
Bo Nadal

Gallo
France
Bon Nouao

Garhwali
India
जसीलो क्रिसमस र जसीलो नै विरबै

Garifuna
Caribbean
Buiti fedu

Gascon
France
Gaujos Nadau

Georgian
Georgia
šobas gilocavt
შობას გილოცავთ

German
Austria, Germany, Liechtenstein, Switzerland
Fröhliche Weihnachten

Gitxsan
Canada
Hisgusgitxwsim Ha’niisgats Christ ganhl Ama Sii K’uuhl

Gothic
Faha weiha naht
𐍆𐌰𐌷𐌰 𐍅𐌴𐌹𐌷𐌰 𐌽𐌰𐌷𐍄

Greek
Greece, Cyprus
Kalá hristúyenna
Καλά Χριστούγεννα

Greenlandic
Greenland
Juullimi pilluarit

Guaraní
Paraguay
Avyaitete ahï ko Tupa ray árape qyraï Yy Kapyryin rira

Guarayu
Paraguay
Imboeteipri tasecoi Tupa i vave

Guinea-Bissau Creole
Guinea-Bissau, Senegal, Gambia
Imboeteipri tasecoi Tupa i vave

Gujarati
India Ānandī nātāla
આનંદી નાતાલ

Gwichʼin
Alaska
Drin tsal zhit shoh ohlii

Haitian
Creole Haiti
Jwaye Nowèl

Hausa
Niger, Nigeria, Ghana, Benin, Cameroon, Ivory Coast, Togo
Barka da Kirsimatikuma

Hawaiian
Hawaii
Mele Kalikimaka

Hebrew
Israel
Chag molad sameach
חג מולד שמח

Hiligaynon/Ilonggo
Philippines
Malipayon nga Paskwa

Hindi
India
śubh krismas
शुभ क्रिस्मस

Hmong
China
Nyob zoo hnub yug Yesxus

Hungarian
Hungary
Boldog Karácsonyt

Iban
Malaysia, Indonesia, Brunei
Selamat Hari Krismas

Ibidio
Nigeria
Idara ukapade isua

Icelandic
Iceland
Gleðileg jól

Igbo
Nigeria
E keresimesi Oma

Ilocano
Philippines
Naragsak Nga Pasku

Indonesian
Indonesia
Selamat Natal

Inupiaq
Alaska
Quvianaq Agaayuniqpak

Inuktitut
Alaska
Kuvianak Inovia
ᑯᕕᐊᓇᒃ ᐃᓄᕕᐊ

Irish
Ireland
Nollaig Shona

Iroquoian
Canada
Ojenyunyat Sungwiyadeson homungradon nagwutut & Ojenyunyat osrasay

Italian
Italy
Buon Natale

Jamaican
Jamaica
Merri crissmus

Jämtlandic
Sweden
Gojuln

Japanese
Japan
Meri Kurisumasu
メリークリスマス

Javanese
Indonesia
Sugeng Natal
ꦱꦸꦒꦼꦁꦫꦶꦪꦪꦤꦠꦭ꧀ꦭꦤ꧀ꦮꦂꦱꦲꦼꦁꦒꦭ꧀ ꦱ꧀ꦭꦩꦼꦠ꧀ꦤꦠꦭ꧀ꦭꦤ꧀ꦠꦲꦸꦤ꧀ꦲꦚꦂ

Jèrriais
Jersey
Bouan Noué

Judaeo-Spanish/Ladino
Israel
Noel alegre i felis anyo muevo
נויל אליגרי אי פ׳יליס אנייו

Jula/Dyula/Dioula
Burkina Faso
la ye Nowɛli diya

Jingpho
Myanmar
Ngwi pyaw ai X’mas rai u ga

Kalmyk
Russia
Tsagaan Sar ölzätä boltxa
Цаһан Сар өлзәтә болтха

Kannada
India
kris mas habbada shubhaashayagalu
ಕ್ರಿಸ್ ಮಸ್ ಹಬ್ಬದ ಶುಭಾಷಯಗಳು

Kapampangan
Philippines
Masayang Pasku

Kaqchikel
Guatemala
Dios tik’ujie’ avik’in

Karachay-Balkar
Russia, Turkey
Džangy džylyġyz oġurlu bolsun
Джангы джылыгъыз огъурлу болсун

Karelian
Russia
Rastavanke sinun
Раставанке синун

Kashubian
Poland
Wèsołych gódów

Kazakh
Kazakhstan
Rojdestvo quttı bolsın
Рождество құтты болсын

Khmer
Cambodia
rikreay thngai bonyanauel
រីករាយ​ថ្ងៃបុណ្យ​ណូអែល

Khoekhoe
Africa
!Gâi!gâxa !khub!naes tsî ǀkhaehesa ǀasa kurib

Kinyarwanda
Rwanda
Noheri nziza

Komi
Russia
Vyl’ voön da bur Röštvoön
Выль воöн дa бур Рöштвоöн

Konkani
India
Khushal Borit Natala

Korean
Korea
jeulgeoun seongtanjeol
즐거운 성탄절

Koyukon
Alaska
Denaahuto’ Hoolaahn Dedzaahn Sodeelts’eeyh

Kurdish Kumanji
Turkey, Iran, Iraq, Syria
Kirîsmes pîroz

Kurdish Sorani
Iraq, Iran
jachny krismiset be khoshy bet
ﺟﻪﮊﻧﻰ ﻛﺮﻳﺴﻤﻴﺴﺖ ﺑﻪ خۆشى بێت

Kyrgyz
Kyrgyzstan
Caratkannın tuısımen
Жаратканнын туысымен

Ladin
Italy
Bun Nadèl

Lakota
USA
Wanikiya tonpi wowiyuskin

Lao
Laos
suksan wan kharitsamāt
ສຸກສັນວັນຄຣິດສມາດ

Latin
Italy
Felix dies Nativitatis

Latvian/Lettish
Latvia
Priecīgus Ziemassvētkus

Lingala
DR Congo, Rep Congo, Central African Republic, Angola
Mbotama Malamu

Lithuanian
Lithuania
Linksmų Kalėdų

Lombard
Italy, Switzerland
Bon Nedal

Low saxon
Germany
Frohe Wiehnachten

Lozi
Zambia
Kilisimusi ye munati ni matohonolo a silimo/mwaha o munca

Luganda
Uganda
Seku Kulu

Lule Sámi
Sweden, Norway
Buorre javla

Lushootseed
USA
Haʔɬ pədx̌aʔx̌aʔ

Luxembourgish
Luxembourg
Schéi Krëschtdeeg

Macedonian
North-Macedonia
Sreḱen Božiḱ
Среќен Божиќ

Magahi
India
bada din aayo naya saal mubaarak
बड़ा दिन आयो नया साल मुबारक

Malagasy
Madagascar
Tratry ny Krismasy

Malay
Brunei, Indonesia, Malaysia,Singapore, Thailand
Selamat hari Natal

Malayalam
India
kristumas āśansakaḷ
ക്രിസ്തുമസ് ആശംസകള്‍

Maltese
Malta
IL-Milied It-tajjeb

Mandarin
China
Shèngdàn kuàilè
圣诞快乐

Meitei/Manipuri
India
Yāi-phə-bə sə-ji-bu che-rāo-bə oi-rə-sə-nu
ꯌꯥꯏꯐꯕ ꯁꯖꯤꯕꯨ ꯆꯩꯔꯥꯑꯣꯕ ꯑꯣꯏꯔꯁꯅꯨ

Manx (Gaelic)
Isle of Man
Nollick Ghennal

Māori
New Zealand
Meri Kirihimete

Marathi
India
Śubha nātāḷa
शुभ नाताळ

Marshallese
Marshall Island
Monono ilo raaneoan Nejin

Masurian
Poland
Wesołéch Gód

Michif
Canada, USA
Gayayr Nwel

Mizo
India, Burma
Krismas Chibai

Moksha
Russia
Roštuva marxta
Роштува мархта

Moldovan
Moldova
Craciunun Fericit

Monégasque
Monaco
Bon Natale

Mongolian
Mongolia
Zul saryn mend hürgeje
Зул сарын мэнд хүргэе

Montenegrin
Montenegro
Hristos se rodi
Христос се роди

Mozarabic
Spain
Buen natal
ون نتل

Nahuatl
Mexico
Cualli netlācatilizpan

Naskapi
Canada
miywaaitaakun mikusaanor

Navajo/Dine
USA
Yáʼátʼééh Késhmish

Ndebele – Northern
Zimbabwe, South Africa
Izilokotho Ezihle Zamaholdeni

Nepali
Nepal, India
Krasmasakō śubhakāmanā
क्रस्मसको शुभकामना

Newari/Nepal Bhasa
Nepal, India
भिं ख्रिस्मस

Niuean
Niue, Cook islands, Tonga
Monuina a aho kilisimasi mo e tau foou

Norman
Jersey
Un bouan Noué

Norwegian
Norway
God Jul

Occitan
France, Monaco, Italy, Spain
Polit Nadal

Ogoni
Nigeria
Eenyie Mea Krist Ne Eenyie Aagbaa

Ojibwe/Chippewa
Canada
Niibaa’ anami’egiizhigad & Aabita Biboo

Okinawan
Japan
merī kurisumasu
メリークリスマス

Old English
United Kingdom
Blīþe Gēol

Oneida
USA
Wanto’wan amp; Hoyan

Onhan
Philippines
Malipayon nga Paskwa

Oriya/Odia
India
Nababarṣara subhechā
ନବବର୍ଷର ସୁଭେଚ୍ଛା

Ossetian
Russia
Cyppurcy Bærægbonæn
Цыппурсы Бӕрӕгбонӕн

Otomi
Mexico
Njohya ar pa ‘mu̲i ne njohya ‘na’yo nje̲ya

Palauan
Palau
Ungil Kurismas

Pangasinan
Philippines
Maabig ya pasko

Papiamento
Aruba, Curaçao, and Bonaire
Bon Pasco

Pashto
Afghanistan
De Krismas akhtar de bakhtawar
د كرسمس ﺍﺧﺘﺮ ﺩ

Pennsylvania German/Dutch
USA
En frehlicher Grischtdaag

Persian
Afganistan
kerismas mobârak
کریسمس مبارک‎

Polish
Poland
Wesołych Świąt

Portuguese
Portugal, Brazil, Cape Verde, Guinea-Bissau, Mozambique, Angola and São Tomé and Príncipe
Feliz Natal

Punjabi
India
Mairī krisamasa
ਮੈਰੀ ਕ੍ਰਿਸਮਸ

Qʼanjobʼal
Guatemala, Mexico
chi woche swatx’ilal hak’ul yet jun yalji Komami’

Quechua
Peru, Bolivia, Chile
Sumaj kausay kachun Navidad ch’sisipi

Rapa-Nui
Easter Island
Mata-Ki-Te-Rangi. Te-Pito-O-Te-Henua

Rarotongan/Cook Islands Māori
Cook Islands
Kia orana e kia manuia rava i teia Kiritimeti e te Mataiti Ou

Romani
Europe
Baxtalo Krećuno

Romansh
Switzerland
Bellas festas da Nadal

Romanian
Romania
Crăciun Fericit

Russian
Russia
S Rozhdestvom
С Рождеством

Rusyn
Eastern Europe
Chrystos roždajesja
Христос рождаєся

Sámi – Northern
Norway, Sweden, Finland and Russia
Buorit Juovllat

Sámi – Southern
Norway, Sweden, Finland and Russia
Buerie jåvle

Sámi – Lule
Norway, Sweden, Finland and Russia
Buorre javla

Samoan
Samoan Islands
Maunia Le Kilisimasi

Sanskrit
India
Kristamasaparvaṇaḥ śubhēcchāḥ
क्रिस्तमसपर्वणः शुभेच्छाः

Sardinian
Italy
Bon nadale

Scots
United Kingdom
Blythe yuil

Scottish Gaelic
United Kingdom
Nollaig chridheil

Seneca
USA
a:o’-e:sad yos-ha:-se:’

Serbian
Serbia
Srećan Božić
Христос се роди

Sesotho/Sotho
Lesotho
Keresemese e monate le mahlohonolo a selemo se setjha

Seychellois
Seychelles
Bonn e Erez Ane (PLACEHOLDER SINCE THAT IS ACTUALLY NEW YEAR)

Shona
Zimbabwe
Muve neKisimusi

Sicilian
Italy
Bon Natali

Silesian
Czech republic
Radosnych Godōw

Sindhi
India
ڪرسمس جون واڌايون ڪرسمس جون واڌايون

Sinhala/Singhalese
Sri Lanka
subha natthalak
සුභ නත්තලක්

Slovak
Slovakia
Veselé vianoce

Slovenian
Slovenian
Vesel Boži
č

Soga/Lasoga
Uganda
Mwisuka Sekukulu

Somali
Somalia, Djibouti
Kirismas Wacan

Sorbian Lower
Germany
Wjasołe gódy

Sorbian Upper
Germany
Wjesołe hody

Sotho – Northern
South Africa
Mahlogonolo a Keresemose

Spanish
Spain
Feliz Navidad

Sranan Tongo
Suriname
Swit’ Kresneti

Sundanese
Indonesia
Wilujeng Natal

Swahili
Kenya, Tanzania, Uganda, Rwanda, Burundi, Malawi, Somalia, Zambia, Mozambique, Democratic Republic of the Congo
Heri ya Krismasi

Swazi
South Africa
Khisimusi lomuhle

Swedish
Sweden
God Jul

Swiss German
Switzerland
Schöni Wienachte

Tagalog
Philippines
Maligayang Pasko

Tahitian
Polynesia
‘Ia ‘oa’oa i te Noera ‘e ‘ia maita’i i te mau ‘ōro’a matahiti ‘āpī

Tamil
India, Sri Lanka
Kiṟistumas nalvāḻttukkaḷ
கிறிஸ்துமஸ் நல்வாழ்த்துக்கள்

Tajik
Tajikistan, Uzbekistan
Dimoƣcoqī Mavludi Iso
Димоғчоқӣ Мавлуди

Tanaina/Denaʼina
Canada
Natukda Nuuphaa

Tatar
Tatarstan
Raştua bäyräme belän
Раштуа бәйрәме белән

Telugu
India
Santōṣakaramaina krisṭhmas
సంతోషకరమైన క్రిస్ఠ్మస్

Tetum
Timor
Ksolok loron natal nian

Tewa
USA
Hihchandi Núuphaa

Thai
Thailand
S̄uk̄hs̄ạnt̒ wạn khris̄t̒mās̄
สุขสันต์วันคริสต์มาส

Tigrinya
Eritrea, Ethiopia
Rhus Be’al Ldetn Hadsh Ametn
ርሑስ በዓል ልደትን ሓድሽ ዓመትን።

Tlingit
USA, Canada
Xristos Khuwdziti kax sh kaxtoolxetl

Tokelauan
Tokelau, Swains Island
Manuia te Kilihimahi

Tok Pisin
Papua New Guinea
Bikpela hamamas blong dispela Krismas go long yu

Tongan
Tonga
Kilisimasi fiefia mo ha ta’u fo’ou monū’ia

Tsonga
Mozambique, South Africa
A ku vi Khisimusi lerinene naswona a ku vi lembe lerintshwa lerinene

Tsotsil
Mexico
Xmuyubajuk ti avo’one ti ta k’ine xchu’uk ti ta ach’ jabile

Tswana
Southern Africa
Keresemose e e monate le ngwaga o o itumedisang

Turkish
Turkey, Cyprus
Mutlu Noeller

Turkmen
Turkmenistan
Täze ýylyňyz gutly bolsun

Tutchone
Canada
t’ohudinch’i Hulin Dzenu & Eyum nan ek’an nenatth’at danji te yesohuthin ch’e hadaatle

Tuvaluan
Tuvalu
Manuia te Kilisimasi mo te Tausaga Fou

Twi
Ghana
Afenhyia pa

Udmurt
Russia
Vyl’ Aren, no Tolsur
Выль Арен, но Толсур

Ukrainian
Ukraine
z Rizdvóm
з Різдвом

Urdu
Pakistan, India
krismas mubārak
کرسمَس مبارک

Uyghur
China, Kazakhstan
Rojistıwa bayrımıngızgä mubaräk
روجىستىۋا بايرىمىڭىزگە مۇبارەك

Uzbek
Uzbekistan
Rojdestvo bayramingiz qutlug
Рождество байрамингиз қутлуғ

Venda
South Africa
Ḓuvha ḽa mabebo a Murena ḽavhuḓi

Venetian
Italy
Bon nadale

Veps
Russia
Raštvoidenke i Udenke Vodenke

Vietnamese
Vietnam
Chúc mừng Giáng sinh

Võro
Estonia
Rõõmsit joulupühhi

Votic
Russia
Yvää uutta vootta

Walloon
Belgium
djoyeus Noyé

Waray
Philippines
Maupay nga Pasko

Welsh
United Kingdom
Nadolig llawen

Westrobothnian
Scandinavia
Gow juwl

Wolof
Senegal, Gambia, Mauritania
Mangui lay ndioukeul ci Noël bi

Xhosa
South Africa, Zimbabwe, Lesotho
Krismesi emnandi

Yiddish
World
a freylekhn nitl
אַ פֿריילעכן ניטל

Yolngu
Australia
Kritjmatj yiŋgathirri ga dhuŋgarra dhawurruŋga yiŋgathirri

Yoruba
West Africa
Ẹ ku Ayọ Keresimesi

Yucatec Maya
Mexico, Guatemala, Belize
Utzul mank’inal

Yupik
Alaska, Russia
Angliq Alussistuaq

Yup’ik
Alaska
Alussistuaqegtaarmek piamken

Zazaki
Turkey
Serra to ya newî pîroz bo

Zulu
South Africa
Jabulele uKhisimusi