• Arthur Prigent

Projet: Comparaison d'échelle d'évaluation @SalomonSAS




Les échelles d'évaluation à la base de l'analyse sensorielle: L’analyse sensorielle, définie comme la sensorimétrie, est littéralement la science de l’évaluation des différentes perceptions. Ces dernières peuvent concerner l’ensemble des cinq sens. L’évaluation sensorielle implique une série de techniques utilisant les perceptions humaines comme des outils pour évaluer et mesurer certaines caractéristiques. Cette évaluation sensorielle inclut l’organisation de tests, de données et l’analyse de ces dernières ainsi que l’interprétation des résultats, en comparaison à des méthodologies plus directes mesurant des données physiques. La réponse sensorielle est un processus complexe impliquant trois étapes majeures ; un stimulus traduit en un signal nerveux en affectant l’organe des sens, une perception formée par un mécanisme d’interprétation confrontant cette sensation à une certaine référence constituée par les expériences passées, puis une réponse adaptée selon la perception (Schiffman 1996). Ce processus psychologique prend en compte deux phénomènes que sont l’adaptation, et l’amélioration. L’adaptation tient compte des situations où la sensibilité d’un sujet est modifiée suite à une exposition continue à un stimulus. L’amélioration, elle, intervient lorsque qu’il y a une interaction de perception sensorielle entre deux situations.
Les évaluations sensorielles peuvent porter sur la mesure la plus objective possible de caractéristiques organoleptiques, notamment dans le cadre de dégustation de produit (Li 2011)(Sørensen et al. 2003). Celles-ci sont aussi utilisées dans le cadre de l’évaluation de la douleur en milieu médical (Lundqvist et al. 2009). Mais elles sont aussi et surtout utilisées dans le cadre du développement et de l’optimisation de produit dans le but de construire un produit que le consommateur va préférer, ou simplement aimer (Sidel, J.L. , Stone, H., Thoma 1994)(Hough, G. Sanchez, R. Barbieri, T. and Martinez 1997). Plusieurs échelles ont été développées dans le cadre de cette psychométrie, dans le but de quantifier ainsi des variables non observables/mesurables directement ; les EVA (échelles visuelles analogiques généralement présentées sous forme double interface, avec un curseur à placer entre 2 bornes espacées de 100mm) et les échelles de Likert (permettant de noter le ressenti selon à un certain nombre d’item). Ces échelles sont généralement construites sous la forme symétrique avec généralement un point de neutralité au milieu de celle-ci. Le fait d’augmenter le spectre de points sur ces échelles offre directement plus d’indépendance au participant pour se retrouver sur son ressenti exact. Mais il y a dans ce sens un compromis à faire entre la validité, et le fait que l’échelle soit discriminante. (Joshi et al. 2015).
Enfin, nous pouvons évoquer les échelles JAR, acronyme anglais de « Just-about-right », qui sont des échelles dont le sens de lecture change diamétralement. En effet nous sommes ici sur une échelle en double opposition, avec un juste milieu, correspondant à la définition « Juste bien ». Différents types d’échelles sont donc utilisées selon l’information à mettre en œuvre, les moyens mais aussi le contexte de l’étude, qu’il soit purement scientifique ou à des fins médicales par exemple.


Problématique et objectif: La problématique était ici de trouver la ou les échelles les plus efficaces pour l’évaluation de critères subjectifs dans le cadre d’un test de chaussure en statique. L’objectif principal étant de mener à bien, et avec la plus grande rigueur, une série de tests sur plusieurs échelles d’évaluation afin d’en évaluer les résultats, notamment sur la reproductibilité de ces dernières sur le critère du confort confort général de différentes chaussures. La finalité était de comparer l’outil d’évaluation « historique » de l’entreprise à plusieurs échelles continues et discrètes sur le critère d’évaluation du confort. Un second test est aussi mené, mais cette fois-ci l’outil d’évaluation de l’entreprise est comparé à une échelle dont le sens de lecture est différent puisqu’il s’agit d’une échelle JAR. Le critère évalué est celui du volume avant-pied. Ce 2nd test permet de venir challenger le 1er, pour voir notamment si ce qui est observé sur le premier critère l’est toujours sur un second. L’hypothèse de départ serait en effet qu’il faudrait peut-être adapter l’échelle au critère, et que plusieurs échelles différentes pourraient être utilisées, selon le critère à évoluer.


Matériel et méthode:

Test 1: Confort général de la chaussure. Les sujets essayent 3 paires de chaussures en aveugle au cours de 6 sessions d'essais (à chaque session les 3 mêmes paires de chaussures). Sur chaque session l'évaluation sur le confort général de la chaussure est porté grâce à une échelle d'évaluation différent.

Test 2: Volume avant-pied de le chaussure. Les sujets essayent 3 paires de chaussures en aveugle au cours de 2 sessions d'essais (à chaque session les 3 mêmes paires de chaussures). Sur chaque session l'évaluation sur le volume avant-pied de la chaussure est porté grâce à une échelle d'évaluation différente.

  • Sujet: 24 sujets

  • Chaussures: 3 paires dont 2 identiques pour pouvoir juger de la reproductibilité de chaque échelle (1 paire de Salomon, et 1 paire de Adidas)

  • 6 conditions d'échelles parmi lesquelles des échelles de Likert, des échelles visuelle analogiques (EVA) et des systèmes de notes

Test statistiques pour la reproductibilité:

  • Mesure de la reproductibilité absolue grâce au SEM (Standard Error of the Mean) Standardisé interprété grâce à l'échelle de Hopkins.

  • Mesure de la reproductibilité relative grâce au coefficient de corrélation intra-classe (ICC)

  • Mesure de la reproductibilité des testeur (seul à 10%)

Test statistiques pour déterminer la capacité des échelles à discriminer:

  • Analyse de variance sur échantillon apparié pour établir si une différence significative est établie entre les 2 paires différentes. (Test T de student ou test T de Wilcoxon selon que la parité et l'homogénéité soient respectées ou non)

  • Taille d'effet (d) interprétée selon l'échelle de Cohen


Résultats et recommandations:

Si l’on tient compte des 2 tests réalisés de manière générale, on obtient que les observations portées sur le 1er test (portant sur le critère du confort général) ne sont pas forcément les mêmes sur le 2nd test (portant sur le critère du volume avant pied). En effet, lors du 1er test, l’évaluation par note classique semblait la plus intéressante puisque parfaitement répétable et permettant de discriminer (bien que de manière assez faible) deux paires de chaussures différentes. Pour autant, cette observation ne se retrouve pas le second critère évolué, celui du volume avant-pied. Sur ce second critère, il semblerait qu’une échelle continue de type JAR soit plus appropriée, en terme de reproductibilité mais aussi dans sa capacité à différencier deux chaussures différentes. Difficile donc d’une première vue d’établir quelconque interprétation ou recommandation quant à l’utilisation des échelles. Pour autant, si l’on s’intéresse au critère évalué, nos résultats semblent assez pertinents. En effet lors du second test, le critère évalué est un critère de volume. Ce critère ne s’évalue pas de la même manière que le confort sur une chaussure de trail-running. Lorsqu’une chaussure peut avoir trop, ou pas assez de volume à l’avant-pied, il est difficile d’imaginer la même chose sur un critère de confort. En effet, on imagine mal quelqu’un avancer le fait qu’une chaussure soit « trop confortable ». Impossible, ou du moins très peu pertinent donc de mettre en place une échelle de type JAR pour une notion de confort. Au vue des résultats, il semble donc assez intéressant d'utiliser une note sur des critères unidirectionnels tel que le confort ou la longueur par exemple. Pour des critères plus complexes tel que le volume ou encore le maintien dans le cadre des chaussures, des échelles bidirectionnelles semblent avoir un certain intérêt. Au vue des résultats du premier test, il serait intéressant cependant de venir challenger cette échelle JAR continue, avec une échelle JAR discrètes équivalent à une note sur 5 avec 1⁄2 points possibles (soit 9 points possibles pour évaluer). On imagine par exemple une échelle avec un volume parfait au milieu (noté à 0) et 4 points de chaque côté permettant d’évaluer d’un côté si le volume est trop conséquent, et 4 points de l’autre côté permettant d’évaluer si le volume est trop restreint. Cela pourrait permettre de garder les avantages d’une échelle JAR, tout en écartant le léger manque de reproductibilité et de capacité à discriminer d’une échelle continue. Analyse critique du travail effectué: Cette première expérience dans le domaine du footwear fut pour moi totalement enrichissante et pleine d’enseignement fort. Elle m’a en effet confirmé mon intérêt pour ce milieu et n’a ainsi fait que confirmer mon souhait d’évoluer dès l’année prochaine vers un parcours orienté sur la chaussure. Avoir eu la chance d’être dans un grand groupe, avec un service footwear désigné m’a permis de visualiser le travail à effectuer dans l’ensemble de la chaine de conception d’une chaussure destinée à la pratique du sport et principalement la course à pied. Au delà de la mise en place des tests dans le cadre de mon stage, j’ai aussi eu la chance de participer à différents tests de fit sur les chaussures, permettant de valider ou non des prototypes. Ce travail en amont de la commercialisation d’une chaussure est évidemment primordial pour une marque dont la renommée n’est plus à faire, mais dont la crédibilité et la pérennité est la base d’une stabilité recherchée. Certains produits, dont la commercialisation n’est prévue qu’en 2020 étaient par exemple en phase de test lors de mon passage dans l’entreprise. Chaque composant d’un nouveau modèle est important et est la cible de tests afin de déterminer sa bonne constitution, sa bonne composition ou encore sa bonne position. Pour cela, avoir des échelles d’évaluation pertinente est primordiale. Dans ce sens, j’ai donc senti un réel intérêt pour le travail que j’ai eu à réaliser. Chacune des personnes à qui j’ai eu affaire s’est sentie impliquée et n’a pas hésité à me faire part de ses remarques, de son expérience et de sa bienveillance, ce qui fut forcément enrichissant, et m’a permis d’être d’autant plus efficace dans la réalisation de mon stage. Le temps a bien été optimisé puisqu’il a fallu organiser pour les 24 sujets pas moins 6 sessions, soit finalement 144 sessions de test à programmer, en s’adaptant au mieux aux contraintes des testeurs, une partie des tests se déroulant à l’Annecy Design Center à Metz-tessy (pour les personnes travaillant au sein de l’entreprise), la seconde partie se déroulant sur à l’Université Savoie Mont-Blanc sur le campus du Bourget-du-Lac (9 des testeurs étant étudiant du Master IEAP). Dans ce sens il aurait sûrement été avantageux d’avoir un peu plus de temps, afin de pouvoir planifier les deux tests dès le début du stage et avoir les mêmes échantillons de population sur le premier et le deuxième test. Sur la population recrutée, un petit biais peut être évoqué puisque certaines personnes, de part leur poste dans l’entreprise était plus ou moins au courant du déroulement de ce stage et sa problématique. Bien qu’ils n’aient pas été confrontés directement au protocole mis en place avant le premier test, leurs avis ont pu légèrement être biaisé. Cette remarque concerne 3 à 4 des testeurs sur les 24 sujets recrutés au total. Il aurait sûrement été préférable d’exclure ces testeurs du recrutement pour des résultats plus adéquats. Cependant, l’idée initiale était d’avoir un maximum de testeurs d’environnement assez hétérogène, comme c’est le cas pour le recrutement dans le cadre d’un test réel. Dans ce cadre il aurait été intéressant de comparer nos résultats selon le niveau de proximité du testeur, en segmentant par exemple les sujets proche du test ayant pu avoir accès à certaines informations, les sujets n’ayant pas eu d’information mais ayant l’habitude de réaliser des tests et enfin les sujets totalement extérieur à cela, n’ayant jamais réalisé de test sur des chaussures. On pourrait ainsi émettre l’hypothèse que les personnes n’ayant aucune expérience dans le test de chaussures seraient beaucoup moins reproductibles que des personnes expérimentées. Pour cela, il aurait fallu recruter des populations homogènes dans les différentes catégories, ce qui n’est pas vraiment le cas ici. Il est important de rappeler que les tests finaux pour la validation et la mise en production d’une chaussure sont des tests dynamiques. Ici les tests réalisés sont des tests statiques. Dans ce sens, il aurait été intéressant de confronter ces résultats à ceux de la réalité du terrain, en réalisant une batterie de tests équivalents mais en laissant le testeur porter la chaussure sur des portions définies et adaptées à la pratique du trail-running. Enfin, et comme cela a été évoqué dans la conclusion, il aurait sembler intéressant de proposer un test supplémentaire prenant en compte les résultats de ces deux premiers tests en testant pourquoi pas l’efficacité d’une échelle JAR configurée en valeur discrète.



©2020 by Arthur Prigent. Proudly created with Wix.com