Les lois Zêta pour l’arithmétique

Les lois Zêta pour l'arithmétique

Résumé

On (re)visite ici avec un regard probabiliste un certain nombre de résultats connus de la théorie analytique des nombres. Au centre de l’article se trouvent les lois Zêta, qui nous sont une consolation de l’inexistence d’une loi uniforme sur . Elles nous permettront par exemple d’étudier la densité naturelle des couples d’entiers ou d’entiers de Gauss premiers entre eux, ainsi que d’autres problèmes analogues. Au passage, on retrouvera la décomposition de la fonction Zêta de Riemann sous forme d’un produit eulérien et une généralisation aux sommes de fonctions multiplicatives.

1 De jolis résultats

Un résultat élémentaire bien connu de théorie des nombres, dû à Dirichlet, est le suivant: si je prends, de manière indépendante, deux nombres choisis uniformément entre et , alors, la probabilité que ces deux nombres soient premiers entre eux vérifie . Un résultat un peu moins connu analogue est que la probabilité qu’un nombre choisi uniformément entre et soit sans facteur carré (c’est à dire qu’on ne peut le diviser par le carré d’un entier différent de 1) possède le même comportement. Voici deux résultats d’essence probabiliste, qui pourtant, ne sont pas tout à fait des grands classiques de la littérature universitaire en probabilités. Ils sont en revanche bien connus en théorie analytique des nombres, et dans ce contexte, les preuves proposées ont une présentation peu probabiliste. Dans le texte qui suit, nous allons ramener ces résultats dans un cadre probabiliste, notamment à l’aide des lois Zêta, qui sont des lois très simples dotées de jolies propriétés arithmétiques. Un avantage de l’approche probabiliste est que l’on n’a pas besoin d’estimées très fines pour montrer la convergence. Dans une partie finale, on pourra donner ainsi une preuve relativement élémentaire du calcul de la densité asymptotique des couples d’entiers de Gauss premiers entre eux.

2 Des preuves détournées

Les preuves les plus couramment trouvées dans la littérature se divisent souvent en deux étapes:

  • Montrer la convergence de (ou )

  • Identifier la limite.

Pour la première étape, une preuve simple repose sur la formule du crible: prenons et deux variables aléatoires indépendantes suivant la loi uniforme sur . On exprime alors la probabilité cherchée comme le complémentaire de “un nombre premier divise et ” et “le carré d’un nombre premier divise ”. Notant la suite des nombres premiers, on optient avec la formule du crible

est la fonction de Möbius: si est divisible par un carré et si s’écrit comme produit de nombres premiers distincts. En réindexant les termes et en rajoutant de nombreux termes nuls, on a finalement

et, de manière similaire

En utilisant un argument de convergence dominée, on obtient alors la convergence de ces deux suites vers .

Pour référence, mentionnons qu’une autre approche existe, consistant à exprimer comme une somme de la fonction indicatrice d’Euler, que l’on exprime elle-même à l’aide de la fonction de Möbius1. Cette approche, utilisée par exemple par Tissier [9], est un cas particulier de la méthode de l’hyperbole de Dirichlet. Pour une description générale de cette technique, nous renvoyons le lecteur à Bordellès [1] ou Tenenbaum [8].

Dans tous les cas, le problème d’identifier la somme de cette série demeure.

La manière la plus efficace est d’utiliser un produit de Dirichlet: on note que

désigne la convolution arithmétique des suites.

Comme (c’est la formule d’inversion de Möbius), on obtient l’identification recherchée. 2 Donnons une brève preuve combinatoire de la formule d’inversion de Möbius: soit .

  • Si , l’identité est immédiate.

  • Sinon, si les facteurs premiers sont , les seuls diviseurs de qui apportent une contribution non nulle à s’écrivent comme produit des éléments d’une partie de , de sorte que

    L’application crée clairement une bijection entre les parties de ne contenant pas et celles la contenant. À l’évidence, les deux parties ainsi associées apportent des contributions opposées à la somme totale, qui est donc nulle.

On notera que ces preuves sont essentiellement combinatoires, et font toutes l’usage d’au moins deux formules de convolution ou d’inversion: en effet, la formule de Poincaré, d’une part, la formule de Möbius, d’autre part, sont toutes deux des formules d’inversion. Mais si le problème se résout à l’aide de deux inversions, peut-être pourrait-on n’en faire aucune ? On est donc tenté de se demander si on ne peut pas trouver une preuve plus directe, ou plus probabiliste.

3 Des indices

Une manière simple de deviner la limite est de passer par les lois Zêta.

Pour , on appelle loi Zêta (ou loi de Zipf) de paramètre la loi sur qui assigne la masse au point . Le coefficient de renormalisation est la célèbre fonction de Riemann, définie pour par

Lemme 1.

La fonction a une limite infinie en .

Démonstration.

Cela se voit aisément par un argument de monotonie: comme la série harmonique diverge, pour tout on peut trouver tel que . Par continuité de la fonction , il existe tel que pour . Il est alors clair que pour . ∎

Les lois Zêta apparaissent naturellement comme consolatrices de l’inexistence d’une loi uniforme sur . Précisément, on a

Lemme 2.

Soit . Si est une variable aléatoire sur telle que tout tout , la probabilité de l’événement ( divise ) vérifie , alors pour des nombres deux à deux premiers entre eux, les événements , …, sont globalement (ou mutuellement) indépendants.

Démonstration.

Soient des entiers distincts entre et . Comme les entiers sont premiers entre eux, on a

Donc

Pour , considérons suivant la loi Zêta de paramètre . Pour tout entier naturel non nul, on a

Ainsi, la loi Zêta de paramètre satisfait la propriété requise par le lemme, que l’on peut donc appliquer:

L’égalité

mérite quelques mots: d’abord, on utilise le fait que si une famille finie d’événements est indépendante, alors la famille formée par leurs complémentaires l’est aussi. Pour cela, il suffit de montrer que si on remplace un des éléments de la famille par son complémentaire, la famille alors obtenue est encore indépendante, puis d’itérer. 3 Pour conclure, il suffit d’utiliser le théorème de continuité séquentielle décroissante: pour toute suite décroissante d’événements, la probabilité de l’intersection est la limite des probabilités.

Nous venons ainsi de donner une preuve probabiliste d’une formule célèbre de la théorie des nombres, initialement dûe à Euler:

(1)

En passant au logarithme, on obtient pour tout ,

En faisant tendre vers , on obtient la divergence de la série de terme général et, par équivalent, de la série des Ainsi, pour , s’il existait une variable aléatoire sur telle pour tout , le deuxième lemme de Borel–Cantelli 4 assurerait

ce qui est absurde, car l’événement en question est vide. En particulier, il n’existe pas de variable aléatoire sur telle pour tout .

On restera donc avec . Soit donc suivant la loi Zêta de paramètre . En procédant comme précédemment, on a

où la dernière égalité vient de (1).

De la même manière, si et sont indépendants et suivent la loi Zêta de paramètre , la probabilité que et soient premiers entre eux est la probabilité qu’aucun nombre premier ne divise les deux; par indépendance et avec le lemme 2, c’est encore .

Lorsque tend vers , ces probabilités tendent vers , qui est précisément la valeur des limites de et .

Rem 1.

Cela n’est pas surprenant. En théorie des nombres, on dit qu’une partie de admet une densité naturelle, et que cette densité naturelle vaut si

On dit également qu’une partie de admet une densité analytique, ou encore une densité de Dirichlet, et que cette densité vaut si

est la loi Zêta de paramètre . La notion de densité de Dirichlet, ou densité analytique, est très utilisée en théorie analytique et probabiliste des nombres. On peut par exemple se référer à l’ouvrage de Tenenbaum [8].

En particulier, il est bien connu que l’existence d’une densité naturelle implique celle d’une densité de Dirichlet, et que dans ce cas, les deux densités coïncident.

Ainsi, si converge, ce ne peut être que vers 5

Pour l’heure, nous n’avons pas encore de preuve purement probabiliste, qui ne requière pas une certaine familiarité avec la théorie des nombres. Cependant, on peut noter que la probabilité limite est précisément la probabilité qu’une variable suivant la loi Zêta de paramètre 2 soit égale à un. D’où l’idée d’obtenir ce théorème de Dirichlet comme corollaire d’une convergence en loi.

4 Compléments de probabilité

4.1 Convergence en loi

La notion de convergence en loi est une notion très importante en théorie des probabilités. Le paragraphe qui suit en fait une présentation minimale, dans le cadre des probabilités sur un ensemble dénombrable. Cette présentation doit permettre de rendre l’essentiel du texte accessible à un probabiliste débutant – typiquement un étudiant de deuxième année de licence des Universités ou des classes préparatoires scientifiques.

Soit un ensemble fini ou dénombrable. On note l’ensemble des probabilités sur , c’est-à-dire des familles avec pour tout et .

Si et , on peut définir une fonction de dans par pour tout . On peut alors écrire

L’identification des deux extrémités de l’égalité ne nécessite pas la notion d’espérance, mais elle est alors moins naturelle.
Ainsi, pour et , on a

d’où .

Notons que l’égalité est atteinte pour . Ainsi, si l’on pose , on a

Il est facile de voir qu’on a ainsi défini une distance entre les probabilités sur . Cette distance est appelée distance de la variation totale.

En prenant pour un singleton, on a facilement

Cependant

d’où en faisant la somme

On peut maintenant démontrer le théorème suivant:

Théorème 1.

Soient des probabilités sur . On a équivalence entre

  1. pour tout ,

  2. pour tout ,

Démonstration.

Par définition de , entraîne et et il est facile de voir que ou entraîne . Le plus difficile est de montrer que entraîne , mais nous avons fait le travail préparatoire. Supposons donc que tend vers pour tout . Soit . De la convergence de la somme , on déduit qu’il existe fini tel que . On a

Comme la somme est finie, , donc pour suffisamment grand et donc . ∎

Lorsque l’une des conditions équivalentes est vérifiée, on dit que la suite de probabilités converge en loi vers .

Si sont des variables aléatoires sur un espace probabilisé régi par la probabilité , on dit que converge6 en loi vers si la loi de (notée usuellement ) converge vers la loi de ().

On peut également noter que

donc

d’où .

Cette inégalité simple a des conséquences importantes. La plus immédiate est que la convergence des variables aléatoires entraîne la convergence des lois associées.

Théorème 2.

Si la suite de variables aléatoires est à valeurs dans un ensemble discret et que tend vers pour tout , alors converge en loi vers .

Démonstration.

Posons . La variable est une variable aléatoire à valeurs dans , donc d’après les propriétés classiques des fonctions de répartition. Comme , converge en loi vers . ∎

4.2 Tension

Si est une suite à valeurs dans , le procédé diagonal d’extraction permet d’en extraire une sous-suite telle que pour tout , converge. Si l’on pose alors, pour tout , , on a alors, pour toute partie finie de .

En passant à la borne supérieure, on obtient . Bien sûr, pour tout , mais c’est insuffisant pour affirmer que , puisqu’il faudrait encore que . De fait, il peut y avoir une perte de mesure, comme on peut le voir en prenant et .

Cela amène à définir la notion de tension: on dit qu’une suite à valeurs dans est tendue si pour tout , il existe fini avec pour tout .

On peut alors énoncer le théorème suivant:

Théorème 3.

De toute suite tendue de , on peut extraire une sous-suite qui converge en loi.

Démonstration.

Reprenons la suite considérée plus haut. Cette fois-ci, pour , on peut trouver fini tel que pour tout . On a alors avec les notations précédentes

donc . Comme peut être pris arbitrairement petit, est, cette fois, une probabilité. ∎

Une probabilité limite d’une sous-suite extraite est appelée loi limite de la suite. Comme dans le cas des suites réelles à valeurs dans un compact, on peut énoncer:

Théorème 4.

Si une suite tendue a une unique loi limite, alors elle est convergente.

Démonstration.

Soit l’unique valeur d’adhérence. Soit . La suite est à valeurs dans qui est compact. Soit une suite telle que . Comme est tendue, l’est aussi. On peut donc en extraire une sous-suite qui converge en loi. Mais cette suite est extraite de qui n’a qu’une seule valeur d’adhérence, donc , ce qui entraîne que . Ainsi, est l’unique valeur d’adhérence de la suite qui est à valeurs dans un compact, donc . Comme , converge en loi vers . ∎

Les notions de convergence en loi, de tension, se généralisent à des lois ou des variables aléatoires sur ou . Pour plus d’informations, on pourra par exemple se référer à [6].

4.3 Lois jointes

Si est une famille infinie de variables aléatoires, on appelle lois jointes des les lois des vecteurs aléatoires , où décrit l’ensemble des parties finies de . On admettra que la loi d’un vecteur aléatoire est pleinement déterminée par la fonction de répartition inverse:

C’est un fait général dont la démonstration est immédiate dans le cas de la théorie de la mesure. On peut toutefois noter que dans le cas des variables discrètes, cela peut se démontrer par récurrence sur sans difficulté particulière.

5 Une preuve pleinement probabiliste

On a besoin d’introduire une notation et quelques lemmes: d’abord, on note l’exposant de dans la décomposition de en produit de facteurs premiers (c’est la valuation -adique de ).

Lemme 3.

La loi d’une variable aléatoire à valeurs dans est caractérisée par les lois jointes des variables .

Démonstration.

On a

La suite converge ponctuellement vers , donc converge en loi vers , d’après le théorème 2. Si les lois jointes des variables sont connues, les lois des sont connues, et donc la loi de . ∎

Lemme 4.

La loi d’une variable aléatoire à valeurs dans est caractérisée par les valeurs de , où décrit .

Démonstration.

D’après le lemme précédent, il suffit de connaître les loi jointes des variables . Mais pour cela, il suffit d’avoir les fonctions de répartition inverse. Or,

d’où le résultat. ∎

Ainsi, si et sont des variables indépendantes suivant respectivement les lois Zêta de paramètre et , alors leur plus grand commun diviseur, noté , vérifie , donc suit la loi Zêta de paramètre .

Dans le cas où suit la loi Zêta de paramètre , le calcul de fonction de répartition effectué dans la preuve du lemme nous donne

La fonction de répartition inverse caractérisant la loi des vecteurs, on en déduit que les variables sont indépendantes et que suit la loi géométrique de paramètre (que l’on note ).

Théorème 5.

Soit des variables aléatoires à valeurs dans . On suppose que

  • est tendue.

  • Pour tout ,

Alors converge en loi vers .

Démonstration.

Comme la famille est tendue, il suffit d’identifier les lois limites: si tend en loi vers , tend vers ; autrement dit tend vers . Donc et et ont même loi. ∎

On peut maintenant énoncer et démontrer un résultat probabiliste.

Théorème 6.

Soient , des variables aléatoires suivant la loi uniforme sur . On note et , où est le plus grand entier tel que divise .

Alors et convergent en loi vers la loi Zêta de paramètre .

Démonstration.

On a

et

Les deux quantités convergent évidemment vers , qui est la probabilité qu’une variable suivant la loi Zêta de paramètre 2 soit divisible par .

Reste à montrer la tension. Quels que soient les entiers naturels et , on a

et de même . Soit alors . Si je prends tel que , l’ensemble vérifie et , ce qui montre que l’hypothèse de tension est bien satisfaite.

Ce résultat se généralise aisément:

Théorème 7.

Soient des variables aléatoires indépendantes suivant la loi uniforme sur . On note et , où est le plus grand entier tel que divise .

Alors et convergent en loi vers la même loi Zêta de paramètre .

La preuve est laissée au lecteur. On a ainsi retrouvé un ancien résultat, que son découvreur, Ernest Cesàro [2, 3], décrivait en ces termes (voir [3]) : «  La probabilité que la -ième racine de la plus haute puissance -ième, qui divise un nombre entier pris au hasard, appartienne à un certain système de nombres, ne diffère pas de la probabilité que le plus grand commun diviseur de entiers, pris au hasard, appartienne au même système.  »

6 Quelques généralisations

Dans cette section, on propose quelques généralisations/extensions des résultats précédents, toujours en privilégiant, lorsque cela est possible, l’approche probabiliste. On supposera maintenant que les théorèmes de convergence dominée et de convergence monotone sont bien connus, particulièrement lorsqu’on les applique à des variables aléatoires.

6.1 Développement eulérien

Une fonction est dit multiplicative si est vérifiée dès que et sont premiers entre eux. Si c’est vrai pour tous les couples , alors la fonction est dite complètement multiplicative.

Théorème 8.

Soit une fonction multiplicative positive ou bornée. On suppose que suit la loi Zêta de paramètre et que est une suite de variables aléatoires indépendantes telles que . Alors

(2)

et

(3)

En particulier, si est complètement multiplicative

(4)
Démonstration.

Soient une suite de variables aléatoires indépendantes telles que . Supposons multiplicative et bornée. D’après le lemme 3, a même loi que , donc ; mais est une fonction multiplicative, donc

Comme est bornée, l’égalité entre le deuxième et le troisième membre est une conséquence du théorème de convergence dominée et de l’indépendance des variables . Ainsi

En simplifiant par , on obtient le résultat voulu.

Le cas où est positive non bornée se fait en l’approchant par une suite croissante de fonctions multiplicatives bornées. Ceci est laissé en exercice au lecteur. ∎

6.2 Nombre moyen de décompositions en sommes de carrés

On note l’ensemble des nombres de la forme , avec et dans . C’est l’anneau des entiers de Gauss. Pour , on pose . On a bien sûr . Ainsi, un inversible de est tel que est un inversible de : ce ne peut être que . Il est alors aisé de voir que tout élément de non nul s’écrit d’une manière unique sous la forme , avec , et : est le représentant privilégié de la classe de lorsque l’on quotiente le semi-groupe par ses éléments inversibles. On a bien sûr , de sorte que l’application passe au quotient. Ainsi, si on note l’ensemble des classes non nulles, on peut définir une application de dans par

et l’on a également .

La fonction peut se calculer explicitement, en utilisant un certain nombre de résultats bien connus de l’anneau , qui sont par exemple décrits dans Perrin [7]. On sait en particulier que

  • est un anneau factoriel.

  • Les irréductibles de sont

    • les nombres premiers congrus à modulo 4; ces nombres ne peuvent s’écrire sous forme de somme de deux carrés.

    • les nombres de la forme tels que est un nombre premier; tous les entiers naturels premiers qui ne sont pas congrus à modulo 4 peuvent s’écrire sous la forme d’une somme de deux carrés.

Ces résultats étant rappelés, on commence par établir un lemme très utile:

Lemme 5.

Si et sont des entiers naturels premiers entre eux, tout élément de de norme se factorise de manière unique sous la forme du produit de deux éléments de de normes respectives et .

Démonstration.

Soit avec . se factorise dans comme produits de classes d’éléments irréductibles de . La norme d’un facteur divise , donc soit , soit puisque et sont premiers entre eux. Soit le produit des facteurs (pris avec leur multiplicité) dont la norme divise , le produit des facteurs dont la norme divise . On a . divise et est premier avec donc divise . De même divise . Comme leur produit fait , on a et . Maintenant si avec et , un facteur irréductible de est un facteur irréductible de dont la norme divise : c’est un facteur irréductible de . La valuation de dans ne peut être plus grande que dans , puisque divise . Or, par définition de la valuation de dans est égale à la valuation de dans , donc a une valuation plus petite dans que dans , ce pour tout , donc divise . Comme et ont la même norme, ils sont égaux. De même, . ∎

On en déduit directement que la fonction est une fonction multiplicative. Calculons plus précisément cette fonction.

Si est tel que , un facteur irréductible de a une norme qui est une puissance de deux. Vu la caractérisation des irréductibles rappelée plus haut, ce facteur ne peut être que la classe de . Finalement, la classe de est la seule classe de norme .

Si est un nombre premier congru à modulo 4, n’est pas premier dans ; il se ramifie sous la forme , et sont premiers dans , non équivalents, de norme . Si , un facteur premier de a une norme qui divise , donc : les facteurs de ne peuvent être que les classes de et . Ainsi s’écrit comme une puissance -ième de la classe de et une puissance -ième de la classe de . Comme , cela nous donne exactement solutions.

Si est un nombre premier congru à modulo 4, est premier dans . Si , un facteur premier de a une norme qui divise , donc : ce ne peut être que , donc s’écrit , et on a . Il n’y a donc de solution que si est pair, et dans ce cas, elle est unique.

Ainsi, on a démontré que la fonction est une fonction multiplicative, que l’on peut calculer explicitement avec pour premier:

Théorème 9.

Soit suivant la loi Zêta de paramètre . On a , où est la fonction bêta de Dirichlet:

Démonstration.

Soient une suite de variables aléatoires indépendantes telles que . On a Ainsi, si est congru à 1 modulo 4, on a et si est congru à 3 modulo 4, . Ainsi, dans tous les cas est défini par et . Finalement, comme est complètement multiplicative, on a