
Un LLM prédit le mot suivant en fonction de la distribution de probabilité. Soit 𝑃 ( 𝑤 1 , 𝑤 2 , … , 𝑤 𝑁 ) P(w 1 ,w 2 ,…,w N ) la probabilité d'une séquence de mots. La perplexité est définie comme : 𝑃 𝑃 ( 𝑊 ) = 𝑃 ( 𝑤 1 , 𝑤 2 , … , 𝑤 𝑁 ) − 1 𝑁 PP(W)=P(w 1 ,w 2 ,…,w N ) − N 1 Ou, en utilisant la règle de la chaîne de probabilité : 𝑃 𝑃 ( 𝑊 ) = ∏ 𝑖 = 1 𝑁 1 𝑃 ( 𝑤 𝑖 ∣ 𝑤 1 , … , 𝑤 𝑖 − 1 ) 𝑁 PP(W)= N ∏ i=1 N P(w i ∣w 1 ,…,w i−1 ) 1 Les détecteurs recherchent une faible perplexité (haute probabilité). L'instruction du prompt « Ne choisissez pas le jeton suivant statistiquement le plus probable » oblige le modèle à sélectionner des jetons plus bas dans la distribution de probabilité (par exemple, le 3e ou 4e mot le plus probable plutôt que le 1er), gonflant artificiellement la valeur de 𝑃 𝑃 PP pour correspondre aux niveaux humains.