Modèle de perception couleur. Application à l'évaluation de qualité d'images Color perception model. Application to image quality assessment

Description
Modèle de perception couleur. Application à l'évaluation de qualité d'images Color perception model. Application to image quality assessment P. Le Callet, D. Barba IRCCyN UMR CNRS 6597, École polytechnique

Please download to get full document.

View again

of 15
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Information
Category:

Government & Nonprofit

Publish on:

Views: 9 | Pages: 15

Extension: PDF | Download: 0

Share
Transcript
Modèle de perception couleur. Application à l'évaluation de qualité d'images Color perception model. Application to image quality assessment P. Le Callet, D. Barba IRCCyN UMR CNRS 6597, École polytechnique de l'université de Nantes, rue Christian Pauc BP 50609, Nantes Cedex 3 Manuscrit reçu le 15 juin 2004 Résumé et mots clés La conception de critères objectifs d'évaluation de qualité visuelle des images est d'une grande utilité afin d'optimiser les performances des systèmes de traitement d'images pour le stockage et la transmission de l'information visuelle. Un critère objectif de qualité doit fournir des mesures de qualité en forte correspondance avec le jugement humain. Il est donc nécessaire d'intégrer des modèles des principales propriétés du système visuel humain dans la conception d'un tel critère. Ce papier présente un modèle très élaboré de perception des images couleur par le système visuel humain (SVH). Il prend en compte et modélise de façon cohérente les fonctions clé de la perception : espace de représentation visuelle des couleurs, fonctions de sensibilité aux contrastes des composantes achromatique et chromatiques, décomposition en canaux perceptifs, fonctions de masquage intra et inter composante. Tous ces modèles ont été déduits à partir de résultats de tests psychophysiques et de leur interprétation. L'application du modèle de perception à la conception d'un critère objectif de qualité d'images couleur avec image de référence est ensuite effectuée. Elle se base sur une analyse critique des différentes façons de construire une fonction de cumul des dégradations perçues: cumul inter-composante, cumul inter-canal, cumul spatial. L'ensemble du critère objectif de qualité a été testé sur une base d'images naturelles couleur ayant subies des dégradations de nature et de force différentes. Les performances en terme de corrélation avec le jugement humain moyen est supérieure à 0,94 et 97 % des images sont correctement évaluées au regard de la précision sur les notes subjectives données par l'humain. Évaluation de qualité, perception couleur humaine, effet de masquage, espace couleur psychovisuel. Abstract and key words The design of image visual quality objective criteria is very useful in order to optimize the performances of image processing systems for storage and transmission of visual data. An objective quality criterion should provide quality measures in good correspondence with human judgment. So, it is necessary to introduce the main properties of the human visual system (HSV) in the design of such a criterion. This paper presents a very elaborated model of color images perception by the HVS. It takes into account and models in a coherent way the key functions of human perception: visual space for color representation, contrast sensitivity functions for achromatic and chromatic components respectively, perceptual channels decomposition, intra and inter pathways masking functions. All these models have been deduced from the interpretation of results of psychophysics experiments. Next, we present an application of the perception model to the design of an objective quality criterion traitement du signal 2004_volume 21_numéro spécial L'image numérique couleur 461 with full reference for color images. This application is based on a critical analysis of different ways to construct the pooling function of perceived errors including inter-pathway pooling, inter-channel pooling and spatial pooling. The entire objective quality criterion have been tested on a database of natural color images which have been stressed with distortions of different nature and strength. Performances in terms of correlation with mean human judgment is more than 0.94 and 97 % of images are correctly assessed according to the accuracy on the subjective rate given by observers. Quality assessment, human color perception, masking effect, psychovisual color space. 1. Introduction De nos cinq sens, la vision est celui qui utilise le plus de neurones dans notre cerveau. De longues recherches neurobiologiques ont permis de dégager quelques principes généraux de fonctionnement du système visuel humain (SVH). La connaissance de celui-ci est particulièrement intéressante en traitement d'images dans la mesure où la plupart des applications sont destinées à fournir des images visualisées et exploitées par l'humain. Ainsi, la prise en compte du fonctionnement du SVH doit permettre d'adapter les traitements à l'élément en bout de chaîne. Le SVH apparaît comme un système multicapteurs, intégrant progressivement des informations spatiales, de couleur, de profondeur, de fréquences spatiales et de mouvement de notre environnement (le mouvement n'est pas considéré dans ce papier). La physiologie de l'aire visuelle primaire V1 lui confère un rôle clé de préparation et de codage de tous ces types d'informations provenant d'une scène visuelle sur une même carte spatiale. Cette organisation des informations, résultante de nombreux traitements bas niveaux, constitue une organisation adaptée pour des traitements de plus hauts niveaux tels qu'ils sont réalisés dans les aires visuelles supérieures. Dans ce papier, nous proposons un modèle de perception des images couleur basé sur une exploitation fine des propriétés du SVH jusqu'à l'aire V1. Des applications de type compression ou tatouage d'images peuvent aisément tirer profit d'un tel modèle. Dans le cas d'une application de compression, le modèle proposé permet, notamment, d'identifier les informations non visibles et donc de s'en affranchir au moment de la compression. Les exploitations d'un tel modèle en tatouage d'images sont multiples, mais on peut citer en particulier la capacité du modèle à fournir des informations propres à régler la force avec laquelle on insère une marque et, de fait, à gérer judicieusement le compromis invisibilité/robustesse. Dans le cadre de ce papier, nous proposons comme illustration d'utiliser ce modèle afin de construire un critère pour évaluer la qualité des images couleur. Un tel critère visant à fournir des notes de qualité en bonne correspondance avec le jugement humain, doit certainement inté- grer des traitements proches de ceux mis en jeu au sein du SVH, l'exploitation de notre modèle est donc dans ce cas bien justifiée. S'il est courant de trouver des modèles de perception ainsi que des critères de qualité pour les images monochromes dans la littérature, rares sont les propositions pour les images couleur. Ceci peut s'expliquer par le fait que passer d'une composante monochrome à trois composantes pour des images couleur ne revient pas à dupliquer simplement trois traitements. L'originalité de notre modèle de perception tient donc essentiellement dans sa complétude, notamment parce qu'il intègre les problèmes d'interaction en terme de visibilité entre les différentes composantes d'un espace de représentation des couleurs. Au niveau du critère d'évaluation de qualité, nous abordons également le problème non trivial de regroupement des erreurs provenant de composantes couleur différentes afin de construire une note de qualité globale. Dans la suite de ce papier, nous décrivons d'abord la structure globale du modèle de perception, puis nous revenons précisément sur les fonctions les plus sensibles de celui-ci: espace couleur, fonction de sensibilité aux contrastes (abrégée CSF en anglais pour Contrast Sensitivity Function), décomposition en sous-bandes perceptuelles, fonction de masquage intra et inter composante. Enfin, nous présentons l'application d'évaluation de qualité d'image couleur avec les résultats associés. 2. Structure globale du modèle de perception Le modèle que nous proposons s'inspire du VDP (Visual Difference Predictor) de Daly [1], avec quelques adaptations d'importance. L'adaptation principale réside dans l'extension du modèle au traitement des images couleur. De manière générale, le modèle permet de projeter les informations dans un espace perceptuel et de les normaliser par rapport à un seuil différentiel de visibilité (défini en fonction des effets de masquage). On retrouve donc toutes les fonctions classiques d'un modèle de 462 traitement du signal 2004_volume 21_numéro spécial L'image numérique couleur perception (CSF, décomposition en canaux, fonctions de masquage) auxquelles vient s'ajouter en amont une transformation en composantes perceptuelles (les trois composantes de l'espace de représentation des couleurs). Si on souhaite comparer deux images dans cet espace perceptuel, alors nous devons définir la manière d'opérer. Pour ce faire, nous rajoutons en sortie du modèle de perception un opérateur de différence de manière à fournir des cartes de différences perceptuelles (appelées aussi erreurs perceptuelles). Cette étape apparaît naturellement utile, entre autres, dans le cadre de l'application finale visée : l'évaluation de qualité. Néanmoins, il est tout à fait possible de s'en affranchir afin de ne conserver que les parties du modèle nécessaires à la définition d'une application donnée. La seconde adaptation majeure par rapport au modèle de Daly concerne justement cette étape. Là où Daly s'intéresse à la probabilité de détection des erreurs perceptuelles, nous préférons construire des erreurs perceptuelles normalisées en fonction des seuils différentiels de visibilité. Enfin, d'autres adaptations concernent des choix de paramètres liés aux résultats des expériences de psychophysique menées au laboratoire. Après une transformation en composantes perceptuelles (composantes de l'espace couleur), chaque composante de l'image originale et de l'image dégradée se voit appliquer respectivement la série de traitements de la figure 1. Fonctions de sensibilités aux contrastes 2D (abrégées CSF 2D sur la figure 1): Nous savons que le système visuel est davantage sensible localement aux variations de la luminance par rapport à la luminance moyenne du fond plutôt qu'à la valeur absolue de cette luminance. Le modèle le plus connu pour exprimer cette dépendance est la loi de Weber-Fechner. Cependant, la luminance de fond n'est pas le seul facteur influant sur le seuil différentiel de visibilité d'un signal. D'autres caractéristiques sont essentielles, notamment sa couleur ou encore son contenu en fréquences spatiales. Les CSF sont généralement utilisées pour caractériser ces dépendances. La CSF décrit l'évolution de la sensibilité visuelle, c'est-à-dire l'inverse du contraste d'un signal à son seuil de visibilité, en fonction le plus souvent des fréquences spatiales et de l'orientation du signal à détecter. Les modèles proposés dans la littérature sont élaborés, la plupart du temps, à partir de résultats expérimentaux sur la détection de signaux sinusoïdaux en utilisant la définition de Michelson pour le contraste. Le fait que les signaux réels soient composés de multiples fréquences implique des variations des seuils de visibilité, ces variations traduisent ce qu'on appelle l'effet de masquage. La définition de base de la CSF est celle pour laquelle le signal à détecter (stimulus) est superposé à un signal constant. Si ce dernier n'est pas constant, la CSF est modifiée par l'effet de masquage, le signal non constant est appelé signal masquant. L'effet de masquage n'est facilement modélisable que si on utilise une décomposition en sous-bandes. Ainsi nous appliquons pour chaque composante une CSF appropriée en entrée du modèle afin de normaliser les signaux par rapport au seuil différentiel de visibilité sur signal constant. La prise en compte des effets de masquage est appliquée dans la suite du modèle en définissant des facteurs d'élévation de seuil de visibilité traduisant la variation de ces seuils. Nous parlons d'élévation de seuil pour respecter le formalisme de Daly. Cela étant, il s'agit d'un abus de langage car dans certaines conditions, on observe plutôt une diminution du seuil différentiel de visibilité (élévation 1). Daly a défini les fonctions d'élévation pour la composante achromatique. Nous proposons des fonctions d'élévation de seuils pour chaque composante couleur de notre espace de représentation perceptuel couleur. Décomposition en canaux perceptuels : Plusieurs évidences physiologiques révèlent que les cellules du système visuel sont accordées pour la plupart à certains types d'informations visuelles comme la couleur, l'orientation ou la fréquence. Les résultats d'expériences psychophysiques suggèrent également l'existence d'une décomposition spatio-fréquentielle en canaux visuels pour traiter l'information. Ainsi, Sakrison [2] remarque que si l'on présente un stimulus contenant plusieurs composantes fréquentielles, comme par exemple une dent de scie, seule la composante fondamentale fixe le seuil de visibilité. Comme nous l'avons indiqué dans le paragraphe précédent, simuler ce phénomène de canaux visuels ou perceptuels est nécessaire si on souhaite modéliser correctement les effets de masquage. En pratique, nous avons nous-même observé que l'interprétation de résultats de nos expériences de psychophysique était grandement facilitée dès lors que l'on introduisait une décomposition en canaux perceptuels bien adaptée. Cela Figure 1. Structure globale du traitement de chaque composante du modèle. traitement du signal 2004_volume 21_numéro spécial L'image numérique couleur 463 conduit à définir plusieurs filtres qui caractérisent les sousbandes ou canaux perceptuels. La construction du banc de filtres de la décomposition est sujet à polémique. Bien que certains auteurs [3], [4] réfutent l'hypothèse de canaux séparables dans une représentation polaire, les caractéristiques de la décomposition sont en général décrites en terme de sélectivités radiale et angulaire. Watson [5] et Daly [6] ont bien détaillé les conditions et propriétés nécessaires des transformations linéaires utilisées pour modéliser la sélectivité spatio-fréquentielle naturelle du système visuel. La plupart des transformations linéaires classiques possèdent certaines de ces propriétés mais rarement toutes. Par exemple, la transformation en ondelettes séparables autorise une sélectivité angulaire selon trois orientations uniquement (0, 90 et 45/135 degrés). La transformée Cortex proposée par Watson [5] est la première transformation qui réunit toutes les conditions. Dans la littérature, on trouve de nombreuses façons de mettre en oeuvre la décomposition en canaux spatio-fréquentiels visant à approcher le comportement du système visuel humain. Cela étant, rares sont les bancs de filtres proposés qui reposent complètement sur des résultats d'expériences de psychophysique et ce, d'autant plus si on s'intéresse aux composantes chromatiques. Daly utilise pour la composante achromatique une décomposition spatio-fréquentielle caractérisée par une sélectivité radiale dyadique et une sélectivité angulaire constante, égale à 30 degrés. Dans notre modèle, nous proposons d'utiliser les décompositions en canaux perceptuels définies à partir de résultats expérimentaux de psychophysique obtenus au laboratoire [7], [8] qui conduisent à 17 canaux pour la composante achromatique et 5 canaux pour chaque composante chromatique. Pour une composante donnée, chaque canal sera indicé par (i, j) où i est l'indice de la bande de fréquences radiales et j l'indice désignant la gamme d'orientations. Fonction de masquage : Nous avons vu que l'effet de masquage traduit la modification de la visibilité d'un signal par la présence d'un autre signal. Cette modification peut aller dans le sens d'une diminution du seuil de visibilité, on parle dans ce cas de facilitation, ou bien dans le sens d'une augmentation du seuil, on parle alors de masquage au sens propre. On comprend donc bien que la prise en compte d'un tel phénomène est un point clé dans bien des applications de traitement d'images. Le principal problème pour modéliser les effets de masquage réside dans la complexité des phénomènes étudiés qui se traduit par une multitude de conditions expérimentales et autant de modèles. Les expériences classiques mesurent la probabilité de détection d'un signal sinusoïdal en présence d'un signal masquant également sinusoïdal. Ces expérimentations portent sur le masquage entre signaux de différentes orientations [9], de différentes fréquences spatiales [10], ou encore entre signaux chromatiques et achromatiques [11], [12], [13]. La plupart de ces expériences conduisent à un modèle du type de celui défini par Legge et Foley [10]. Ce modèle, largement admis, prédit le degré avec lequel un signal cible sinusoïdal est masqué en présence d'un autre signal masquant sinusoïdal. Ce type de modèle a connu quelques améliorations [14], [9] en introduisant le concept de décomposition spatio-fréquentielle. Il a été ainsi constaté que le masquage dépendait de l'énergie dans un canal et aussi de l'énergie des canaux adjacents en terme d'orientation. Récemment, les modèles de contrôle de gain du contraste ont connu un succès notable car ils prédisent également bien les seuils de visibilité de signaux simples. Initialement développés par Teo et Heeger [15], ces modèles sont sans cesse affinés de manière à expliquer les multiples interactions entre les canaux visuels ou les composantes de l'espace de représentation des couleurs [16], [17]. Dans notre cas, nous explicitons de la manière la plus fine possible les effets de masquage en prenant en compte ces multiples interactions. Le modèle proposé doit s'appuyer sur des expériences qui permettent de bien maîtriser les stimuli proposés aux observateurs. Trop souvent dans la littérature, on trouve des approximations grossières d'auteurs exploitant des résultats d'expériences conduites en utilisant un espace de représentation donné pour produire un modèle dans un autre espace. Afin d'éviter cet écueil, notamment sur tous les aspects de perception couleur, nous avons veillé à mener les expériences de psychophysique nécessaires. Les étapes décrites précédemment (espace couleur, CSF, décomposition en sous bandes) ne visent qu'à faciliter la modélisation des effets de masquage. Dans un espace de représentation visuelle de l'information à plusieurs canaux et composantes, il est possible de dissocier les différentes origines des effets de masquage: - le masquage intra canal explicite les relations entre des signaux traités par le même canal; - le masquage inter canal caractérise les influences entre des signaux traités par des canaux différents mais sur la même composante; - le masquage inter composante traduit les interactions entre des signaux portés par des composantes différentes. Pour le masquage intra composante (impliquant tant l'effet de masquage intra canal qu'inter canal), nous devons définir une fonction par canal et par composante liée uniquement au contenu de cette composante. On calcule ainsi l'élévation du seuil de visibilité Ti, intra j,c (m,n) en chaque site (m,n) de chaque canal (i, j) de la composante c. Pour le masquage inter composante (non visible sur la figure 1), nous avons également besoin de définir les fonctions permettant de prendre en compte les interactions entre les composantes. Ainsi, on définit l'élévation du seuil de visibilité T inter i, j,c i, j,c (m,n) en chaque site (m,n), liée à l'action du canal (i, j ) de la composante c sur le canal (i, j) de la composante c. Enfin, il faut combiner toutes les fonctions d'élévation du seuil de visibilité de manière à obtenir la variation totale du seuil de visibilité T i, j,c (m,n) en chaque site (m,n) de chaque canal (i, j) de chaque composante c. Pour cela nous utilisons un modèle multiplicatif. En effet nous avons vu précédemment qu'une telle approche était cohérente avec les résultats expérimentaux. La grandeur T i, j,c (m,n) décrit donc l'élévation relative des seuils de visibilité due au contenu de l'image par rapport à la situation d'un fond uniforme. On a alors : 464 traitement du signal 2004_volume 21_numéro spécial L'image numérique couleur T i, j,c (m,n) = Ti, intra j,c (m,n). T inter i, j,c i, j,c (m,n)
Related Search
Similar documents
View more...
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks