Niveau des joueurs - WN8

Sommaire

1 Introduction
2 Pourquoi WN8 ?
3 En quoi le WN8 est-il différent?
- 3.1 Dégâts/tiers contre cote par char
- 3.2 Echelle
4 Limitations et menaces sur la validité
5 Mécaniques internes
- 5.1 La grande hypothèse du WN8
- 5.2 Validation des données
6 Matrice des statistiques attendues
7 Les etapes du WN8 : la formule
8 Mise à jour périodiques
9 Sources

Introduction

Le WN8 est la dernière itération du projet WNx, initié et mené par Praetor77. Le but du WN8 est de mesurer la contribution observable aux parties, à l’échelle d’un compte et d’en déduire des informations sur cette variable latente qu’est le “skill”. Le WN8 ne doit pas être considéré comme une évaluation ultime du skill. Il est prévu qu’il soit lu en prenant en compte le win ratio, le nombre de batailles, le tiers moyen et il ne remplacera jamais une inspection minutieuse des états de service, de partir en peloton avec le joueur ou de regarder ses replays. Tout ceci car le WN8 ne peux pas prendre en compte des choses comme le timing, le choix des cibles, le travail d'équipe ou les capacités de prise de décision.

Pourquoi WN8 ?

Comme tous les systèmes de comparaison le précédant, le WN7 avait ses propres défauts et limitations. Certains d’entre eux étaient déjà connus lors de sa publication et d’autres l’ont été peu après. Dans l’ordre de gravité tel que jugé par l'équipe WN* :

Échelonnement des dégâts par tiers - tandis que les tiers évoluent de manière linéaire de 1 à 10, les dégâts évoluent eux de manière curviligne. De même la capacité de dégâts n’est pas très bien repartie entre les chars d’un même tiers (par exemple T4 vs A-20 ou bien ARL V39 vs M18).

Échelonnement des frags par tiers - en bas tiers on trouve des joueurs moins compétents, ainsi faire des frags au tiers 1 est plus simple qu’en tiers 10, en supposant que la compétence du joueur reste constamment au dessus d’un certain niveau.

Problème du tiers 1-10 - à cause des deux problèmes précédents, le problème du tiers 1-10 s’est manifesté dans le WN7. Precambrian a très bien expliqué ce phénomène dans son post, qui malgré quelques informations périmées, expose très bien le problème à une échelle compréhensible. En voici un résumé ci-dessous.

precambrian:
Ce qui rend le calcul de métriques très compliqué, c’est qu’il est plus simple de se faire des stats exceptionnelles à bas tiers qu’à haut tiers, car à bas tiers le niveau moyen de compétences des nouveaux joueurs est faible et les dégâts des canons comparés aux faibles points de vie des chars permet à des joueurs expérimentés de détruire facilement leurs adversaires débutants sans grandes difficultés. Ce phénomène est parfaitement illustré par les auto-cannons de tiers 1 qui peuvent détruire un opposant de tiers 1 sans même que le nouveau joueur ait le temps de tourner la tourelle ou simplement réagir. Ce potentiel de destruction permet à des joueurs pas si compétents que ça de gagner un grand nombre de matchs et de gonfler leur stats. Le WN7 a essayé de contourner cela en infligeant une pénalité sur les bas tiers, mais celle-ci est facilement esquivée en jouant alternativement haut tiers et bas tiers. Prenons l’exemple suivant (les catégories sont dans l’ordre : char, résultat, survie?, dégâts infligés, dégâts reçus, frags, xp, détection, point de capture, point de défense, WN7):

Si vous faisiez la moyenne des valeur de WN7 de chaque match, vous obtiendriez 2578. Par contre, si vous faites la moyenne de chaque statistiques puis calculiez le WN7, vous obtiendriez 3260 ! Il y a de nombreuses raisons à cela. La première c’est la non-linéarité de l’échelonnement des points de vie; un tiers 8 possède plus de 8 fois le nombre de point de vie d’un char de tiers 1 et donc plus de dégâts peuvent être farmés en tiers 8. Il est également très facile d’enchaîner les frags en tiers 1, biaisant le nombre de frags par match à la hausse. Et finalement le tiers moyen se trouve bien plus biaisé à la baisse que les dégâts moyens tandis que le kill par match se trouve lui faussé à la hausse causant une énorme différence lorsque le WN7 est calculé de cette façon. Maintenant regardons ce qui se passerait si j’excluais le match en T1 cunningham du calcul des moyennes. J’obtiendrais un résultat de 2960 WN7. Du coup, bien que le WN7 individuel du match en cunningham ne soit que de moins de 1600, je gonfle énormément mes statistiques lorsqu’il se trouve inclus dans le calcul global.
Évidemment l'échantillon est faible, mais vous avez compris l’idée.

Artillerie et scouts – Pour finir ces deux classes ne génèrent pas les même nombres que les trois autres. Grosso modo, les chars lourds, mediums et chasseurs de chars sont comparables, mais un scouts tier 8 ne sort pas les même dégâts ou frags qu’un ISU/IS-3/T69/50 100. Les artilleries qui scoutent font n’importe quoi (et donc leur détection devrait être moins prise en compte), et leur dégâts peuvent être très importants dans certains tiers, en particulier avant qu’elles ne soient reclassifiées dans le patch 0.8.6 (encore qu’elles soient moins importantes à cause des changements de DPM)!

En quoi le WN8 est-il différent?

Dégâts/tiers contre cote par char

Les WN1-7 et l’Efficiency v1 et v2 étaient toutes des formules de calcul directement appliquées aux statistiques fournies par les API web de Wargaming, elles choisissaient des poids différents pour chaque valeur et elles essayaient de tirer du résultat une cote globale qui avait un sens. Toutefois, les problèmes exposés ci-dessus restent les même pour tous les systèmes utilisant un calcul de type “dégâts/tiers”. Il n’y a aucun moyen de contourner le problème de la valeur des dégâts (ou de leur disponibilité) en fonction du tiers ni du fait que les frags n’ont pas le même poids selon les tiers. Du coup pour le WN8 nous avons adopté une méthode totalement différente. Nous ne sommes pas les premiers à l’utiliser. Le Performance Rating de Mr Noobmeter utilise déjà une approche par tank depuis ses débuts et si le PR a reçu un accueil mesuré du fait que la formule n'était pas rendue publique, Mr Noobmeter l’a finalement divulguée il y a quelques mois et expliquée. Les cotes par chars sont plus compliquées à développer (notamment obtenir de bonnes données) et à appliquer (elles nécessitent beaucoup plus de puissance de calcul) mais le contrôle des résultats au niveau des chars d’un compte montre qu’il n’est pas possible des les dupliquer contrairement a la version dégâts par tiers. Le WN8 est devenu une cote “par char” en lieu et place d’un ratio dégâts par tiers. C’est pourquoi il n’y a pas de notion de tiers moyen dans l'équation finale, bien que l'information des tiers joués fasse partie de la méthodologie dans les premières étapes. Ainsi le WN8 inclus maintenant à la fois le char que le joueur a choisi mais aussi le nombre de batailles jouées sur le compte.

Echelle

Une des premières choses qu’un lecteur va remarquer c’est que l'échelle du WN8 est différente de celle introduite pour l’Efficiency et adoptée pour les WN1 à 7. Plusieurs décisions prises pendant le développement du WN8 ont conduit à ce changement d'échelle. Vous trouverez les explications techniques et la logique dans la section Mécanique interne. Mais l‘explication la plus simple reste que l'échelle de l’Efficiency n'était pas assez discriminante dans la différenciation du niveau de skill des joueurs. Les parties hautes et basses de la distribution des joueurs étaient compressées. Vous pouvez voir ci-dessous l’echelle du WN8 comparée à celle du WN7 et de Mr Noobmeter’s PR.

Ce changement d'échelle rends la valeur du WN7 incomparable avec le WN8 bien que les deux soient des nombres à 3 ou 4 chiffres la plupart du temps. Nous comprenons bien que c’est un inconvénient, particulièrement avec les nouvelles de couleurs (celles du bas sont celles du WN8). Pourtant il est parfois nécessaire de recentrer ou changer le zéro de certaines échelles. Prenez l’exemple des échelles Fahrenheit/Celsius/Kelvin en sciences ou l’histoire du Standard Admission Test des universités américaines, ce sont de bons exemples de modification d'échelle. Tout comme auparavant, seul un petit nombre de joueurs viendra peupler les catégories extrêmes et la grande majorité de la différenciation se passera en réalité au centre.

Limitations et menaces sur la validité

Histoire – Une myriade de chose ont changées depuis que WoT a été créé et les joueurs accumulent les statistiques sur leurs comptes.. On pense rapidement aux changements de tiers T30, T34, IS-4, Batchat 25t, chars légers AMX, artillerie, MT-25, VK2801, etc), aux équilibrages, ou aux modifications de mécanismes (physique, munition premium payables en crédits, distribution des tirs version 2 sigma, MM +2/-2). Des choses ont changés et d’autres changeront encore dans le futur. L'équipe WN* reconnaît pleinement que l’histoire du jeu pose une menace sur la validité des mesures, mais nous n’y pouvons rien et c’est pourquoi nous rappelons sans cesse de vérifier le Tableau de service et d'être curieux si vous voulez en savoir plus au sujet de l'historique d’un joueur. WG n’est pas très doué pour l'administratif. Ils auraient pu laisser les stats de tout le monde en T-50-2 et publier une nouvel ID de char pour le MT-25. Nous aurions vraiment apprécié que cela se passe de cette manière (et aussi pour tous les autres chars qui ont été modifiés ou remplacés). Mais nous devrons nous contenter des stats à 60 jours ou des batailles récentes finalement. Maturité – Les joueurs, individuellement ou en groupe, tendent à s'améliorer ou devenir moins bons avec le temps. Il y a aujourd’hui plus d’information sur le web qu’en 2011, de ce fait la progression d’un joueur peut s’en trouver accélérée ou ralentie selon leur implication dans la recherche sur les mécanismes et la meta-game de WoT De plus, comme les dossiers s'apprécient au travers du temps, des changements importants peuvent prendre beaucoup de temps à être perçus au travers des cotes globales ou cumulatives surtout après de très nombreuses batailles. Dégâts par détection – WG a mentionné que ces statistiques seraient peut-être incluses dans leurs API plus tard, mais qu’elles seraient indisponibles jusque la. Bien que les dégâts par détection soient une composante importante d’un bon niveau de jeu, particulièrement en char légers, nous avons réussi à améliorer significativement la cotation des joueurs de chars légers, même sans ces données. Hourra pour la méthode par char !

Cumul d’un grand nombre de parties avec un seul char – Ceci rends le WN8 moins effectif car les personnes qui jouent énormément de parties avec un seul et même char verront leur cote globale tendre vers la cote de ce char. Le WN8 a été spécifié au niveau des comptes et non des chars, et même s’il y a une hypothèse de jeu sur une variété de chars, celle-ci est beaucoup moins prégnante que dans le WN7 et les autres cotes précédentes. A partir d’un moment, si une personne joue suffisamment de parties dans un unique char, elle peux passer outre les hypothèses de normalisation du WN8. Combien faudrait-il de parties pour en arriver la ? Nous n'avons pas conduit d’analyse formelle, mais a vue de nez si une personne joue plus de 50% de ses parties dans un seul char cela devrait être suffisant pour rendre invalide le WN8 pour son compte. Souvenez-vous toutefois que rien n'empêche de jouer le char que vous aimez tant pour des milliers et des milliers de parties. Le WN8 ne vous pénalisera pas pour ça, cela rendra juste la comparaison de votre niveau de jeu plus difficile. Il n’est pas possible de prendre en compte toutes les aberrations statistiques !

Variance par char – En lien avec les items précédents, bine que le WN8 soit une valeur calculée char par char, la variance des résultats des différents chars n’est pas la même. Prenons un exemple tiré du jeu et considérons le T49 et l’AT-2. L’AT-2 est lent, myope mais très blindé, nous aurons donc un ensemble de statistiques possibles variant assez peu par rapport au T49 qui est aussi un TD de tiers 5. Le T49 est rapide, fragile et maîtrise l’art du camouflage , ces attributs résultent généralement en des statistiques meilleures ou moins bonnes par rapport ses valeurs médianes. L’AT-2 aura une variance plus faible que le T49. Du coup même si nous avons une bonne source de valeurs moyennes pour l’AT-2 et le T49, sur l’ensemble de la population on observera plus de bonnes ou mauvaises performances avec le T49 qu’avec l’AT-2. Le WN8 n’inclus pas de facteur de variance par char dans sa pondération. Nous n’avons pas estimé que a masse de données était suffisante pour fournir une estimation correcte, et le calcul du WN8 était déjà d’une complexité supérieure de plusieurs ordres de grandeur par rapport au WN7. L'équipe WN* n'étant pas en charge des serveurs qui permettent de rendre les calculs publics, nous avons décidé de laisser l’exploration du la variance par char pour la version 9 ou au-delà. Pour avoir un exemple de cette variance par char et les calculs sur le pourquoi les chars avec une plus grande variance améliorent votre cote plus rapidement (si vous jouez bien), veuillez consulter la section WN8: Appendix A.

Mécaniques internes

La grande hypothèse du WN8

Le WN8 fait une hypothèse majeure qui le différencie de tous les précédents systèmes de cotation. Nous avons défini un niveau pour les joueurs ayant une performance moyenne , à partir de leur capacité à influencer les parties. C’est un concept particulier, qui est clairement sujet à discussion. mais nous avons simplement suppose qu’il existe un niveau de participation (dégâts/frags/détection/défense) qui influence le résultat de la bataille (en terme de ratio de victoire), et aussi qu’il existe un seuil en deçà duquel cette participation n’a plus d’influence significative et mesurable sur le sort de la bataille. La valeur exacte de ces seuils a été calculée et soustraite (voir l'étape rSTATSc plus bas) pour comparer tous es joueurs aux joueurs théoriques (et malheureusement existants) qui ne performent pas assez pour influencer leur ratio de victoire au delà du fait de participer et de prendre une place dans le MM. L’avantage de cette hypothèse est qu’elle donne un sens à la cote même pour les valeurs extrêmes. Il y avait des points gratuits dans le WN7, basiquement entrer en bataille car aucun joueur ne peux réussir l’exploit d’accumuler 0 statistiques, même le bot le moins bien programmé. Par contre beaucoup de joueurs accumulent tellement peu de statistiques qu’il ne peuvent influencer positivement leur ratio de victoire de manière mesurable. En ajustant ces effets de seuil, nous obtenons une meilleure différenciation autant à haut niveau qu’a bas niveau car nous éliminons le “bruit”. Évidemment le milieu du classement en tire également bénéfice. Nous postulons donc qu’il existe un point 0 en deçà duquel l'influence des statistiques (dégâts/détection/frags/défense) n’est pas significative. Comme expliqué précédemment, cette hypothèse est ouverte à discussion. Ceci étant, merci dans ce cas de vous joindre à ce débat en ayant une solide connaissance des statistiques et des prises de mesures ainsi que des chars. De manière pratique, cela transforme aussi les intervalles utilisés par l’Efficiency, le PR et le WN7 en une échelle pseudo proportionné, ce qui amène de nombreux avantages. Le plus flagrant après l‘amélioration de la précision des mesures est le fait qu’en appliquant ce seuil, nous pouvons désormais affirmer qu’un joueur ayant 2400 WN8 contribue deux fois plus a l’effort de son équipe qu’un joueur avec 1200 WN8. Ce qui n'était le cas d’aucune cote avant le WN8. Sources de données

Le WN8 étant une cote par char, nous avions besoin de données par char qui n'étaient pas toujours disponibles par le biais des API web de WG. Nous nous sommes tournes vers Phalynx de vBAddict.net, qui a généreusement accepte de nous donner sa base de données de plus de 17.000 dossiers. Nous avons filtré cette base de données pour retirer les joueurs ayant moins de 1000 batailles, et tous les chars ayant moins de 50 parties. A partir de la, en utilisant une régression linéaire, nous avons détermine les stats attendues sur chaque char pour un joueur de capacité médiane. Pour chaque combinaison joueur/char, nous avons calcule un joueurWN8Alpha et un charWN8Alpha. La formule de ce WN8Alpha était proche du WN7, juste un moyen de mesurer une efficacité par char. Ensuite nous n’avons gardé que les 50% des joueurs qui avaient de bonnes performances SUR CE CHAR, et non en général. Cela nous a fourni un bon mélange de joueur avec des ratio de victoires importants et faibles. Nous avons postulé que se référer au 50% des meilleurs joueurs d’un char est une bonne manière de comparer les performances les unes aux autres étant donné qu’ils arrivent à extirper la moindre once de performance de leurs machines. Sinon en prenant l’autre moitié, on comparerait les performances des chars a celles de joueurs qui ne connaissent pas les mécaniques du jeu ou comment utiliser au mieux leurs machines. Une fois tout ceci explicité, j’ai utilisé cette meilleure moitié pour effectuer une régression linéaire, car simplement utiliser les valeurs moyennes introduirait un biais et ne serait pas généralisable à l'intégralité de la communauté.

Pour vérifier que les statistiques attendues pour chaque char sont bien équilibrées, nous avons porté notre regard sur le ratio charWN8/joueurWN8. Nous avons vérifié que les joueurs du dernier décile en terme de ratio charWN8/joueurWN8 comptaient à peu près 1.15 pour tous les chars du jeu. Quand un char avait un ratio inférieur, nous avons diminué les valeurs utilisées pour faire la régression sur les 50 meilleurs pourcent, puis vérifié de nouveau le ratio du dernier décile. Il nous a fallu plusieurs itération de calcul de charWN8 et joueurWN8 pour atteindre un point d’équilibre et que tous les ratios charWN8/joueurWN8 soient d’environ 1.15. Le but de tout ceci était de nous efforcer, tout en mesurant le skill des joueurs, de déterminer les valeurs attendues qui normaliseraient les statistiques dégâts/frags/détection/défense au sein des chars. Trouver combien de dégâts le même joueur ferait en ARL v39 et en M18 Hellcat, toutes choses étant égales par ailleurs.

Une poignée de chars ont eu besoin d’une analyse plus en profondeur du ratio charWN8/joueurWN8 à cause d’une nombre anormalement bas de bons joueurs jouant ce char (A-20 par exemple) ou alors suite à de gros nerfs/buffs (comme le M41). Nous avons essayé de trouver une juste milieu pour les chars ayant subis de gros nerfs/buffs (comme le M4A8E1, l’AMX 50B ou le T110E5) en recherchant a avoir une représentation large de joueurs ayant joués ces chars durant les différentes périodes ; de manière a ce que les valeurs ne représentant pas seulement l’état le plus puissant du char, actuel ou originel (pour que les joueurs le jouant dans un état mieux équilibré ne soient pas désavantagés) ou l’ignorant tout simplement (pour que les joueurs ne l’ayant joué que pendant sa période surpuissante et plus jamais depuis, ne reçoivent pas de bonus injustifiés). Note: Cette partie manuelle du processus est la plus sujette a caution scientifiquement parlant. Toutefois, aucun biais personnel des créateurs n’a été introduit durant cette phase et l'équipe qui a travaillé sur ces ajustements était composée de douzaines de contributeurs sur WoTLabs compilant les tables de données par char et collaborant entre les serveurs EU, NA, SEA et RU. Quand cela a été nécessaire, des valeurs “correspondantes les plus proches” ont été utilisées pour des chars ayant un historique de partie vraiment bizarre, comme le A-20 que personne n’a vraiment envie de jouer (c’est ce que les données montrent ...). Si ce process manuel vous pose problème, merci de contribuer à l’enrichissement des données par char utilisées par le WN8 en uploadant vos parties sur https://www.vbaddict.net/wot.php

De même, les tables de valeurs attendues par char ont été comparées aux tables utilisées pour la cote PR de Noobmeter et une table du percentile supérieur des joueurs du serveur RU a été gentiment fournie par Seriych (données similaires à ce qu'était le dossier personnel avec XVM dans les version 0.8.6 et précédentes). La plupart des valeurs attendues étaient très proches de celles de Noobmeter (du tiers 3 à 8), et si vous multipliiez ces valeurs par 1.5 (pour voir ce qu’aurait besoin d’avoir un jouer pour obtenir 2400 WN8 sur son char), vous obtenez les valeurs des unicums, qui sont très proches de celles du percentile supérieur du serveur RU tel que fournies par Seriych. Pareillement, cette approche résulte dans des valeurs manifestement élevées en bas tiers pour les nouveaux joueurs, toutefois ce n’est pas un problème puisque la plupart des joueurs ont moins de 3% de l'intégralité de leur parties en tiers 1. De plus cela fonctionne comme un filtre contre les seal-clubbers qui se fabriquent de fausses bonnes statistiques. Vous pouvez toujours massacrer des joueurs en tiers 1, mais il va falloir être vraiment bon à ce petit jeu ! Obtenir une moyenne de 1.7 frags par bataille (une bonne valeur en tiers 10) en tiers 1 ne vous donnera plus l’apparence d’un bon joueur. Cela n’a rien a voir avec l'équipe WN* ayant une dent contre les joueurs jouant à bas tiers, mais simplement nous voulons identifier le skill des joueurs indépendamment du tiers joué.

Rappel : L’IMPORTANT dans ces tables c’est la relation des valeurs entre les différents chars. Nous pourrions diviser toutes ces valeurs par 3 cela ne ferait aucune différence. Il en va de même pour le ratio 1.15 que nous avons utilise pour équilibrer les chars, nous aurions pu utiliser n’importe quel nombre. Nous avons garé une échelle compatible avec l'échelle de dégâts de WoT pour des raisons de lisibilité et de facilité à se sourcer.

Validation des données

Un jeu de données contenant tous les joueurs de plusieurs serveurs ayant plus de 10000 batailles nous a gentiment été fournie par Mr Noobmeter (nous avions besoin de batailles sur tous les chars), une base de données de plus de 4Gb qui était difficile à ouvrir avec Excel ! Néanmoins, nous n’avons gardé que les joueurs des serveurs EU et NA et fini avec une base de 11500 joueurs, ce qui est peu ou prou le maximum que pouvait supporter le PC boiteux de Praetor77. De cette base nous avons déduit les statistiques attendues, le rSTATS puis le rSTATSc. Nous avons entre toutes ces valeurs de rSTATSc dans Eureqa (un programme aussi sympathique qu'intelligent qui utilise des algorithmes génétiques itératifs pour trouver des relations mathématiques au sein d’un jeu de données) afin de déterminer la formule mathématique optimale utilisant rSTATSc et “expliquant” le rWINc des 11500 joueurs de notre base de données. Après analyse des données nous nous sommes aperçus que certaines joueurs avaient des rSTATSc aberrantes (en réalité toutes sauf le rDAMAGEc), nous avons donc décidé de mettre en place une série de “cap”, des valeurs maximales afin d'améliorer l'utilité du WN8. Ces valeurs (les rSTATSc) ne semblaient de toute façon bien corrélées au rWINc que jusqu'à un certain point au delà duquel la corrélation diminuait fortement. Les caps ont été implémentés comme ceci :

rFRAGcMAX = rDAMAGEc+0.2
rSPOTcMAX = rDAMAGEc+0.1
rDEFcMAX   = rDAMAGEc+0.1

Nous avons entrés les rSTATS cappées dans Eureqa qui nous a retourne une équation très proche de la précédente, mais qui sait cette fois gérer la plupart des joueurs hors normes. La formule finale est :

rWINc = 0.09 + 0.613*rDAMAGEc + 0.131*rFRAGc*rDAMAGEc + 0.097*rFRAGc*rSPOTc + 0.047*rFRAGc*rDEFc

Nous avons alors multiplié chaque terme de l'équation par 1600, ce qui amène à une valeur centrale pour les joueurs de la base de données plutôt similaire au WN7 et qui devrait amener le WN8 moyen du serveur entier grosso modo au même niveau que le WN7, entre 900 et 1000.

Matrice des statistiques attendues

Vous pouvez visualiser les valeurs attendues pour chaque char, sans avoir besoin d’Excel, ici : Expected Tank Values De plus, Mr Noobmeter héberge gracieusement sur son propre site la matrice des valeurs attendues, avec ses valeurs de PR : https://www.noobmeter.com/tankLis

Les etapes du WN8 : la formule

Étape 1

rDAMAGE = avgDmg     / expDmg
rSPOT   = avgSpot    / expSpot
rFRAG   = avgFrag    / expFrag
rDEF    = avgDef     / expDef
rWIN    = avgWinRate / expWinRate

Dans l’étape 1 on compte le nombre batailles chars jouées pour chaque char, puis on multiplie ce nombre par les valeurs attendues afin d’avoir les valeurs totales attendues pour le joueur. Puis on divise le total des statistiques (dégâts totaux, frags totaux, détections, total de défense, ratio de victoire) du joueur par les valeurs calculeées juste avant pour obtenir les ratios.

Étape 2

rWINc    = max(0,                     (rWIN    - 0.71) / (1 - 0.71) )
rDAMAGEc = max(0,                     (rDAMAGE - 0.22) / (1 - 0.22) )
rFRAGc   = max(0, min(rDAMAGEc + 0.2, (rFRAG   - 0.12) / (1 - 0.12)))
rSPOTc   = max(0, min(rDAMAGEc + 0.1, (rSPOT   - 0.38) / (1 - 0.38)))
rDEFc    = max(0, min(rDAMAGEc + 0.1, (rDEF    - 0.10) / (1 - 0.10)))

Dans l'étape 2 on fixe les points 0. Référez-vous a la section hypothèse pour plus d'informations sur le pourquoi. Les fonctions min et max sont utilisés pour s’assurer que les ratios sont bornés. Le format des constantes est le suivant :

(rSTAT – constant) / (1 – constant)

Pour normaliser tout ceci, un joueur ayant tous ses rSTASTc = 1 aura un WN8 de 1565. Un joueur ayant tous ses rSTATS = 1 aura aussi tous ses rSTATSc = 1 car (1-c) / (1-c) = 1.

Étape 3

WN8 = 980*rDAMAGEc + 210*rDAMAGEc*rFRAGc + 155*rFRAGc*rSPOTc + 75*rDEFc*rFRAGc + 145*MIN(1.8,rWINc)

Dans l'étape 3, on prends en compte les ratios de performance pondérés (étape 1) et normalisés (étape 2) et nous appliquons les coefficients déterminés dans la formule ci-dessus. On se retrouve avec une échelle de 0 à 5000compte-tenu des différentes pondérations des dégâts et cela reflète les interaction entre frags*détection, défense*frags et dégâts*frags. Un point sur les interactions Si vous jouez 5000 parties en T50 que vous obtenez en moyenne 4 détections par bataille alors que la valeur attendue est de 4 détections par bataille, alors votre rSPOTc = 1. Si vous jouez uniquement le E100, que vous détectez 0.88 chars par bataille en moyenne alors que la valeur attendue est de 0.88 détections par bataille, alors votre rSPOTc =1 la aussi. Donc le rSPOTc ne mesure PAS votre capacité à détecter, mais comment votre capacité de détection se situe par rapport à ce que le joueur médian ferait s’il jouait les mêmes parties que vous. De plus la corrélation entre rSPOTc et le ratio de victoire est assez significativement plus importante que pour la moyenne de détection :

De même dans la formule du WN8, rSPOTc et rDEFc sont multiplies par rFRAGc ce qui donne un resultat bien correles avec le ratio de victoire (tel que mesure par rWINc) :

On voit que rSPOT*rFRAG mesure manifestement quelque chose d’important pour la victoire. Ces interactions semblent mesurer correctement la capacité de certains joueurs à assumer plusieurs rôles et s’adapter pour faire ce qui est nécessaire a la victoire, par opposition aux joueurs qui restent en sécurité et se contente de faire des dégâts (que du rDMGc). L’analyse des données des joueurs indique (et Eureqa est d’accord) que rFRAGc *rSPOTc vous apprends beaucoup de choses sur la contribution d’un joueur à la victoire. Les créateurs pensent que cela a a voir avec l'agressivité et la volonté de créer des opportunités pour l’équipe. Si vous obtenez régulièrement de grande valeur de rSPOTc, vous vous placez dans des positions plus risquées et si vous en plus vous maintenez un haut niveau de frags, dégâts, défense et victoire, a notre humble avis vous êtes un meilleur joueur que si vous obtenez les mêmes statistiques de frags et dégâts sur les cibles que vous éclairent vos alliés, tout en restant en seconde ligne. Le conseil le plus répété dans le jeu est : “Met ton canon en action et reste vivant pour continuer à le faire parler” et les valeurs de rSTATSc tendent à démontrer cet adage.

Mise à jour périodiques

Comme les chars joues par les joueurs changent dans le temps, le WN8 a été développe avec l’intention de pouvoir mettre à jour périodiquement les valeurs attendues afin de maintenir la pertinence des mesures de performances des chars et des joueurs qui les jouent La méthodologie de mise à jour a été développée 6 mois après l’introduction du WN8, et implémenté par un script écrit en R pour s’assurer que le processus est répétable, et aussi pour éviter de s’appuyer sur des ajustements manuels issus d’opinions subjectives pour 95% des chars. A partir des données de vBAddict, filtrées comme explique plus haut, un graphique est généré en R ; il représente pour tous les chars et pour chacune des rSTAT S (rDAMAGE/rFRAG/rDEF/rSPOT/rWIN) le nuage de points des rSTATS de tous les joueurs en regard des valeur globales des rSTATS de tous tous les joueurs sur tous les chars. Ci-dessous, en guise d’exemple, le graphique du rDAMAGE du Type 59 :

La droite qui représente l’ajustement optimal des moindres carrés - la ligne rouge - croise l’axe des rDAMAGE globaux des joueurs à la valeur 0.953. C’est le ‘coefficient de correction’ qui doit être appliqué à la valeur attendue de dégâts pour le Type 59 lors de la mise à jour. Ces facteurs sont générés automatiquement et appliqués aux 5 rSTATS des 350 chars disponibles via les API de WG. Pour les quelques chars ou nous n’avons pas assez de données pour produire une droite d’ajustement optimal acceptable, les valeurs de chars similaires et de même tiers et type leurs sont assignées. Tous les joueurs qui voudraient voir le WN8 être toujours plus représentatif sont invités à télécharger et utiliser le vBAddict ADU Active Dossier Uploader pour uploader leurs données et résultats de batailles au fur et a mesure qu’ils jouent. Ainsi le WN8 - et vBAddict - obtiennent de meilleurs données.

Sources

Traduit par kadvael77:eu

Jeux

Navigation

Outils