Combinaison d’information visuelle, conceptuelle, et contextuelle pour la construction automatique de hiérarchies sémantiques adaptées à l’annotation d’images

Combinaison d’information visuelle, conceptuelle, et contextuelle pour la construction automatique de hiérarchies sémantiques adaptées à l’annotation d’images

Hichem Bannour Céline Hudelot

Laboratoire de Mathématiques Appliquées aux Systèmes (MAS)
École Centrale Paris

Grande Voie des Vignes
92295 Châtenay-Malabry, France
{Hichem.bannour, Celine.hudelot}@ecp.fr

Résumé

Ce papier propose une nouvelle méthode pour la construction automatique de hiérarchies sémantiques adaptées à la classification et à l’annotation d’images. La construction de la hiérarchie est basée sur une nouvelle mesure de similarité sémantique qui intègre plusieurs sources d’informations: visuelle, conceptuelle et contextuelle que nous définissons dans ce papier. L’objectif est de fournir une mesure qui est plus proche de la sémantique des images. Nous proposons ensuite des règles, basées sur cette mesure, pour la construction de la hiérarchie finale qui encode explicitement les relations hiérarchiques entre les différents concepts. La hiérarchie construite est ensuite utilisée dans un cadre de classification sémantique hiérarchique d’images en concepts visuels. Nos expériences et résultats montrent que la hiérarchie construite permet d’améliorer les résultats de la classification.

Mots Clef

Construction de hiérarchies sémantiques, sémantique d’images, annotation d’images, mesures de similarité sémantiques, classification hiérarchique d’images.

Abstract

This paper proposes a new methodology to automatically build semantic hierarchies suitable for image annotation and classification. The building of the hierarchy is based on a new measure of semantic similarity. The proposed measure incorporates several sources of information: visual, conceptual and contextual as we defined in this paper. The aim is to provide a measure that best represents image semantics. We then propose rules based on this measure, for the building of the final hierarchy, and which explicitly encode hierarchical relationships between different concepts. Therefore, the built hierarchy is used in a semantic hierarchical classification framework for image annotation. Our experiments and results show that the hierarchy built improves classification results.

Keywords

Semantic hierarchies building, image semantics, image annotation, semantic relatedness measure, hierarchical image classification.

1 Introduction

Avec l’explosion des données images, il devient essentiel de fournir une annotation sémantique de haut niveau à ces images pour satisfaire les attentes des utilisateurs dans un contexte de recherche d’information. Des outils efficaces doivent donc être mis en place pour permettre une description sémantique précise des images. Depuis les dix dernières années, plusieurs approches d’annotation automatique d’images ont donc été proposées [Barnard03, Lavrenko03, Fan08IP, Bannour09CORIA, Bannour10] pour essayer de réduire le problème bien connu du fossé sémantique [Smeulders00]. Cependant, dans la plupart de ces approches, la sémantique est souvent limitée à sa manifestation perceptuelle, i.e. au travers de l’apprentissage d’une fonction de correspondance associant les caractéristiques de bas niveau à des concepts visuels de plus haut niveau sémantique [Barnard03, Lavrenko03]. Cependant, malgré une efficacité relative concernant la description du contenu visuel d’une image, ces approches sont incapables de décrire la sémantique d’une image comme le ferait un annotateur humain. Elles sont également confrontées au problème du passage à l’échelle [Liu07]. En effet, les performances de ces approches varient considérablement en fonction du nombre de concepts et de la nature des données ciblées [Hauptmann07]. Cette variabilité peut être expliquée d’une part par la large variabilité visuelle intra-concept, et d’autre part par une grande similarité visuelle inter-concept, qui conduisent souvent à des annotations imparfaites.

Récemment, plusieurs travaux se sont intéressés à l’utilisation de hiérarchies sémantiques pour surmonter ces problèmes [Tousch11, Bannour11, BannourMMM12]. En effet, l’utilisation de connaissances explicites, telles que les hiérarchies sémantiques, peut améliorer l’annotation en fournissant un cadre formel qui permet d’argumenter sur la cohérence des informations extraites des images. En particulier, les hiérarchies sémantiques se sont avérées être très utiles pour réduire le fossé sémantique [Deng10]. Trois types de hiérarchies pour l’annotation et la classification d’images ont été récemment explorées : 1) les hiérarchies basées sur des connaissances textuelles (nous ferons référence à ce type de connaissances par information conceptuelle dans le reste du papier) 111Exemple d’information textuelle utilisée pour la construction des hiérarchies: les tags, contexte environnant, WordNet, Wikipedia, etc. [Marszalek07, Wei07, Deng09], 2) les hiérarchies basées sur des informations visuelles (ou perceptuelles), i.e. caractéristiques de bas niveau de l’image [Sivic08, Bart08, Yao09], 3) les hiérarchies que nous nommerons sémantiques basées à la fois sur des informations textuelles et visuelles [LI10, Fan07, Wu08]. Les deux premières catégories d’approches ont montré un succès limité dans leur usage. En effet, d’un côté l’information conceptuelle seule n’est pas toujours en phase avec la sémantique de l’image, et est alors insuffisante pour construire une hiérarchie adéquate pour l’annotation d’images [Wu08]. De l’autre coté, l’information perceptuelle ne suffit pas non plus à elle seule pour la construction d’une hiérarchie sémantique adéquate (voir le travail de [Sivic08]). En effet, il est difficile d’interpréter ces hiérarchies dans des niveaux d’abstraction plus élevés. Ainsi, la combinaison de ces deux sources d’information semble donc obligatoire pour construire des hiérarchies sémantiques adaptées à l’annotation d’images.

La suite de ce papier est organisée comme suit: dans la section 2 nous présentons les travaux connexes. La section 3 présente la mesure sémantique proposée dans un premier temps, puis les règles utilisées pour la construction de la hiérarchie sémantique. Les résultats expérimentaux sont présentés dans la section 4. La section 5 présente nos conclusions et perspectives.

2 État de l’art

Plusieurs méthodes [LI10, Fan07, Marszalek07, Wei07, Sivic08, Bart08] ont été proposées pour la construction de hiérarchies de concepts dédiées à l’annotation d’images. Dans cette section nous présenterons ces différentes méthodes en suivant l’ordre proposé dans l’introduction.

Marszalek & al. [Marszalek07] ont proposé de construire une hiérarchie par l’extraction du graphe pertinent dans WordNet reliant l’ensemble des concepts entre eux. La structure de cette hiérarchie est ensuite utilisée pour construire un ensemble de classifieurs hiérarchiques. Deng & al. [Deng09] ont proposé ImageNet, une ontologie à grande échelle pour les images qui repose sur la structure de WordNet, et qui vise à peupler les 80 000 synsets de WordNet avec une moyenne de 500 à 1000 images sélectionnées manuellement. L’ontologie LSCOM [LSCOM06] vise à concevoir une taxonomie avec une couverture de près de 1 000 concepts pour la recherche de vidéo dans les bases de journaux télévisés. Une méthode pour la construction d’un espace sémantique enrichi par les ontologies est proposée dans [Wei07]. Bien que ces hiérarchies soient utiles pour fournir une structuration compréhensible des concepts, elles ignorent l’information visuelle qui est une partie importante du contenu des images.

D’autres travaux se sont donc basés sur l’information visuelle [Sivic08, Bart08, Yao09]. Une plateforme (I2T) dédiée à la génération automatique de descriptions textuelles pour les images et les vidéos est proposée dans [Yao09]. I2T est basée principalement sur un graphe AND-OR pour la représentation des connaissances visuelles. Sivic & al. [Sivic08] ont proposé de regrouper les objets dans une hiérarchie visuelle en fonction de leurs similarités visuelles. Le regroupement est obtenu en adaptant, pour le domaine de l’image, le modèle d’Allocation Dirichlet Latente hiérarchique (hLDA) [Blei04]. Bart & al. [Bart08] ont proposé une méthode bayésienne pour organiser une collection d’images dans une arborescence en forme d’arbre hiérarchique. Dans [Griffin08], une méthode pour construire automatiquement une taxonomie pour la classification d’images est proposée. Les auteurs suggèrent d’utiliser cette taxonomie afin d’augmenter la rapidité de la classification au lieu d’utiliser un classifieur multi-classe sur toutes les catégories. Une des principales limitations de ces hiérarchies visuelles est qu’elles sont difficiles à interpréter. Ainsi, une hiérarchie sémantique compréhensible et adequate pour l’annotation d’images devrait tenir compte à la fois de l’information conceptuelle et de l’information visuelle lors du processus du construction.

Parmi les approches pour la construction de hiérarchies sémantiques, Li & al. [LI10] ont présenté une méthode basée à la fois sur des informations visuelles et textuelles (les étiquettes associées aux images) pour construire automatiquement une hiérarchie, appelée "semantivisual", selon le modèle hLDA. Une troisième source d’information que nous nommerons information contextuelle est aussi utilisée pour la construction de telles hierarchies. Nous discutons plus précisément de cette information dans le paragraphe suivant. Fan & al. [Fan09] ont proposé un algorithme qui intègre la similarité visuelle et la similarité contextuelle entre les concepts. Ces similarités sont utilisées pour la construction d’un réseau de concepts utilisé pour la désambiguïsation des mots. Une méthode pour la construction de hiérarchies basées sur la similarité contextuelle et visuelle est proposée dans [Fan07]. La "distance de Flickr" est proposée dans [Wu08]. Elle représente une nouvelle mesure de similarité entre les concepts dans le domaine visuel. Un réseau de concepts visuels (VCNet) basé sur cette distance est également proposé dans [Wu08]. Ces hiérarchies sémantiques ont un potentiel intéressant pour améliorer l’annotation d’images.

Discussion

Comme nous venons de le voir, plusieurs approches de construction de hierarchies se basent sur WordNet [Marszalek07, Deng09]. Toutefois, WordNet n’est pas très approprié à la modélisation de la sémantique des images. En effet, l’organisation des concepts dans WordNet suit une structure psycholinguistique, qui peut être utile pour raisonner sur les concepts et comprendre leur signification, mais elle est limitée et inefficace pour raisonner sur le contexte de l’image ou sur son contenu. En effet, les distances entre les concepts similaires dans WordNet ne reflètent pas nécessairement la proximité des concepts dans un cadre d’annotation d’images. Par exemple, selon la distance du plus court chemin dans WordNet, la distance entre les concepts "Requin" et "Baleine" est de 11 (nœuds), et entre "Humain" et "Baleine" est de 7. Cela signifie que le concept "Baleine" est plus proche (similaire) de "Humain" que de "Requin". Ceci est tout à fait cohérent d’un point de vue biologique, parce que "Baleine" et "Humain" sont des mammifères tandis que "Requin" ne l’est pas. Cependant, dans le domaine de l’image il est plus intéressant d’avoir une similarité plus élevée entre "Requin" et "Baleine", puisqu’ils vivent dans le même environnement, partagent de nombreuses caractéristiques visuelles, et il est donc plus fréquent qu’on les retrouve conjointement dans une même image ou un même type d’images (ils partagent un même contexte). Donc, une hiérarchie sémantique appropriée devrait représenter cette information ou permettre de la déduire, pour aider à comprendre la sémantique de l’image.

3 Méthode Proposée

En se basant sur la discussion précédente, nous définissons les hypothèses suivantes sur lesquelles repose notre approche:
Une hiérarchie sémantique appropriée pour l’annotation d’images doit: 1) modéliser le contexte des images (comme défini dans la section précédente), 2) permettre de regrouper des concepts selon leurs caractéristiques visuelles et textuelles, 3) et refléter la sémantique des images, i.e. l’organisation des concepts dans la hiérarchie et leurs relations sémantiques est fidèle à la sémantique d’images.

Figure 1: Illustration de la mesure proposée basée sur les similarités normalisées: visuelle , conceptuelle et contextuelle entre concepts.

Nous proposons dans ce papier une nouvelle méthode pour la construction de hiérarchies sémantiques appropriées à l’annotation d’images. Notre méthode se base sur une nouvelle mesure pour estimer les relations sémantiques entre concepts. Cette mesure intègre les trois sources d’information que nous avons décrites précédemment. Elle est donc basée sur 1) une similarité visuelle qui représente la correspondance visuelle entre les concepts, 2) une similarité conceptuelle qui définit un degré de similarité entre les concepts cibles, basée sur leur définition dans WordNet, et 3) une similarité contextuelle qui mesure la dépendance statistique entre chaque paire de concepts dans un corpus donné (cf. Figure 1). Ensuite cette mesure est utilisée dans des règles qui permettent de statuer sur la vraisemblance des relations de parenté entre les concepts, et permettent de construire une hiérarchie.

Étant donné un ensemble de couples image/annotation, où chaque annotation décrit un ensemble de concepts associés à l’image, notre approche permet de créer automatiquement une hiérarchie sémantique adaptée à l’annotation d’images. Plus formellement, nous considérons l’ensemble des images de la base considérée, et le vocabulaire d’annotation de ces images, i.e. l’ensemble de concepts associés à ces images. L’approche que nous proposons consiste alors à identifier nouveaux concepts qui permettent de relier tous les concepts de dans une structure hiérarchique représentant au mieux la sémantique d’images.

3.1 Similarité Visuelle

Soit une représentation visuelle quelconque de l’image (vecteur de caractéristiques visuelles), on apprend pour chaque concept un classifieur qui permet d’associer ce concept à ses caractéristiques visuelles. Pour cela, nous utilisons machines à vecteurs de support (SVM) [Vapnik95] binaires (un-contre-tous) avec une fonction de décision :

(1)

où: est la valeur d’une fonction noyau pour l’échantillon d’apprentissage et l’échantillon de test , est l’étiquette de la classe de , est le poids appris de l’échantillon d’apprentissage , et est un paramètre seuil appris. Il est à noter que les échantillons d’apprentissage avec leurs poids forment les vecteurs de support.

Après avoir testé différentes fonction noyau sur notre ensemble d’apprentissage, nous avons décidé d’utiliser une fonction noyau à base radiale:

(2)

Maintenant, compte tenu de ces SVM appris où les représentations visuelles des images sont les entrées et les concepts (classes d’images) sont les sorties, nous voulons définir pour chaque classe de concept un centroïde qui soit représentatif du concept . Les centroïdes définis doivent alors minimiser la somme des carrés à l’intérieur de chaque ensemble :

(3)

est l’ensemble de vecteurs de support de la classe , , et est la moyenne des points dans .

L’objectif étant d’estimer une distance entre ces classes afin d’évaluer leurs similarités visuelles, nous calculons le centroïde de chaque concept visuel en utilisant:

(4)

La similarité visuelle entre deux concepts et , est alors inversement proportionnelle à la distance entre leurs centroïdes respectifs et :

(5)

est la distance euclidienne entre les deux vecteurs et définie dans l’espace des caractéristiques visuelles.

3.2 Similarité Conceptuelle

La similarité conceptuelle reflète la relation sémantique entre deux concepts d’un point de vue linguistique et taxonomique. Plusieurs mesures de similarité ont été proposées dans la littérature [Budanitsky06, Resnik95, Banerjee03]. La plupart sont basés sur une ressource lexicale, comme WordNet [wordnet]. Une première famille d’approches se base sur la structure de cette ressource externe (souvent un réseau sémantique ou un graphe orienté) et la similarité est alors calculée en fonction des distances des chemins reliant les concepts dans cette structure [Budanitsky06]. Cependant, comme nous l’avons déjà dit précédemment, la structure de ces ressources ne reflète pas forcement la sémantique des images, et ce type de mesures ne semble donc pas adapté à notre problématique. Une approche alternative pour mesurer le degré de similarité sémantique entre deux concepts est d’utiliser la définition textuelle associée à ces concepts. Dans le cas de WordNet, ces définitions sont connues sous le nom de glosses. Par exemple, Banerjee et Pedersen [Banerjee03] ont proposé une mesure de proximité sémantique entre deux concepts qui est basée sur le nombre de mots communs (chevauchements) dans leurs définitions (glosses).

Dans notre approche, nous avons utilisé la mesure de similarité proposée par [Patwardhan06], qui se base sur WordNet et l’exploitation des vecteurs de co-occurrences du second ordre entre les glosses. Plus précisément, dans une première étape un espace de mots de taille est construit en prenant l’ensemble des mots significatifs utilisés pour définir l’ensemble des synsets222Synonym set: composante atomique sur laquelle repose WordNet, composée d’un groupe de mots interchangeables dénotant un sens ou un usage particulier. A un concept correspond un ou plusieurs synsets. de WordNet. Ensuite, chaque concept est représenté par un vecteur de taille , où chaque ième élément de ce vecteur représente le nombre d’occurrences du ième mot de l’espace des mots dans la définition de . La similarité sémantique entre deux concepts et est alors mesurée en utilisant la similarité cosinus entre et :

(6)

Certaines définitions de concepts dans WordNet sont très concises et rendent donc cette mesure peu fiable. En conséquence, les auteurs de [Patwardhan06] ont proposé d’étendre les glosses des concepts avec les glosses des concepts situés dans leur voisinage d’ordre 1. Ainsi, pour chaque concept l’ensemble est défini comme l’ensemble des glosses adjacents connectés au concept (={gloss(), gloss(hyponyms()), gloss(meronyms()), etc.}). Ensuite pour chaque élément (gloss) de , sa représentation est construite comme expliqué ci-dessus. La mesure de similarité entre deux concepts et est alors définie comme la somme des cosinus individuels des vecteurs correspondants:

(7)

.

Enfin, chaque concept dans WordNet peut correspondre à plusieurs sens (synsets) qui diffèrent les uns des autres dans leur position dans la hiérarchie et leur définition. Une étape de désambiguïsation est donc nécessaire pour l’identification du bon synset. Par exemple, la similarité entre "Souris" (animal) et "Clavier" (périphérique) diffère largement de celle entre "Souris" (périphérique) et "Clavier" (périphérique). Ainsi, nous calculons d’abord la similarité conceptuelle entre les différents sens (synset) de et . La valeur maximale de similarité est ensuite utilisée pour identifier le sens le plus probable de ces deux concepts, i.e. désambigüiser et . La similarité conceptuelle est alors calculée par la formule suivante:

(8)

est l’ensemble des synsets qu’il est possible d’associer aux différents sens du concept .

3.3 Similarité Contextuelle

Comme cela a été expliqué dans la section 2, l’information liée au contexte d’apparition des concepts est très importante dans un cadre d’annotation d’images. En effet, cette information, dite contextuelle, permet de relier des concepts qui apparaissent souvent ensemble dans des images ou des mêmes types d’images, bien que sémantiquement éloignés du point de vue taxonomique. De plus, cette information contextuelle peut aussi permettre d’inférer des connaissances de plus haut niveau sur l’image. Par exemple, si une photo contient "Mer" et "Sable", il est probable que la scène représentée sur cette photo est celle de la plage. Il semble donc important de pouvoir mesurer la similarité contextuelle entre deux concepts. Contrairement aux deux mesures de similarité précédentes, cette mesure de similarité contextuelle dépend du corpus, ou plus précisément dépend de la répartition des concepts dans le corpus.

Dans notre approche, nous modélisons la similarité contextuelle entre deux concepts et par l’information mutuelle PMI [Church90] (Pointwise mutual information) :

(9)

où, est la probabilité d’apparition de , et est la probabilité jointe de et de . Ces probabilités sont estimées en calculant les fréquences d’occurrence et de cooccurrence des concepts et dans la base d’images.

Étant donné le nombre total de concepts dans notre base d’images, le nombre total d’images, le nombre d’images annotées par (fréquence d’occurrence de ) et le nombre d’images co-annotées par et , les probabilités précédentes peuvent être estimées par:

(10)

Ainsi:

(11)

quantifie la quantité d’information partagée entre les deux concepts et . Ainsi, si et sont des concepts indépendants, alors et donc . peut être négative si et sont corrélés négativement. Sinon, et quantifie le degré de dépendance entre ces deux concepts. Dans ce travail, nous cherchons uniquement à mesurer la dépendance positive entre les concepts et donc nous ramenons les valeurs négatives de à 0.

Enfin, afin de la normaliser dans l’intervalle [0,1], nous calculons la similarité contextuelle entre deux concepts et dans notre approche par:

(12)

Il est à noter que la mesure PMI dépend de la distribution des concepts dans la base. Plus un concept est rare plus sa PMI est grande. Donc si la distribution des concepts dans la base n’est pas uniforme, il est préférable de calculer par:

(13)

3.4 Mesure de Similarité Proposée

Pour deux concepts donnés, les mesures de similarité visuelle, conceptuelle et contextuelle sont d’abord normalisées dans le même intervalle. La normalisation est faite par la normalisation Min-Max. Puis en combinant les mesures précédentes, nous obtenons la mesure de similarité sémantique adaptée à l’annotation suivante:

(14)

où: ; , et sont respectivement la similarité visuelle, la similarité conceptuelle et la similarité contextuelle normalisées.

Le choix des pondérations est très important. En effet, selon l’application ciblée, certains préféreront construire une hiérarchie spécifique à un domaine (qui représente le mieux une particularité d’un domaine ou d’un corpus), et pourront donc attribuer un plus fort poids à la similarité contextuelle (). D’autres pourront vouloir créer une hiérarchie générique, et devront donc donner plus de poids à la similarité conceptuelle (). Toutefois, si le but de la hiérarchie est plutôt de construire une plateforme pour la classification de concepts visuels, il est peut être avantageux de donner plus de poids à la similarité visuelle ().

3.5 Règles pour la création de la hiérarchie

La mesure proposée précédemment ne permet que de donner une information sur la similarité entre les concepts deux à deux. Notre objectif est de regrouper ces différents concepts dans une structure hiérarchique. Pour cela, nous définissons un ensemble de règles qui permettent d’inférer les relations d’hypernymie entre les concepts.

Nous définissons d’abord les fonctions suivantes sur lesquelles se basent nos règles de raisonnement:

  • qui retourne le concept le plus proche de selon notre mesure:

    (15)
  • permet de trouver l’ancêtre commun le plus proche (Least Common Subsumer) de et dans WordNet:

    (16)

    permet de trouver l’ensemble des hypernymes de dans la ressource WordNet, représente la racine de la hiérarchie WordNet et renvoie la longueur du plus court chemin entre et dans WordNet.

  • renvoie les 3 concepts les plus proche de au sens de la fonction .

(a) Règle.
(b) Règle.
(c) Règle.
Figure 2: Règles pour inférer les liens de parenté entre les différents concepts. En rouge les préconditions devant être satisfaites, en noir les actions de création de nœuds dans la hiérarchie.

Nous définissons ensuite trois règles qui permettent d’inférer les liens de parenté entre les différents concepts. Ces différentes règles sont représentées graphiquement sur la figure 2. Ces règles sont exécutées selon l’ordre décrit dans la figure 2. La première règle vérifie si un concept est classé comme le plus proche par rapport à plusieurs concepts (). Si oui et si ces concepts , sont réciproquement dans , alors en fonction de leur LCS ils seront soit reliés directement à leur LCS ou dans une structure à 2 niveaux, comme illustré dans Figure 2(a). Dans la seconde, si et (peut aussi être écrite ) alors et sont fortement apparentés et seront reliés à leur LCS. La troisième règle concerne le cas où et - voir Figure 2(c).

La construction de la hiérarchie suit une approche ascendante (i.e. commence à partir des concepts feuilles) et utilise un algorithme itératif jusqu’à atteindre le nœud racine. Étant donné un ensemble de concepts associés aux images dans un ensemble d’apprentissage, notre méthode calcule la similarité entre toutes les paires de concepts, puis relie les concepts les plus apparentés tout en respectant les règles définies précédemment. La construction de la hiérarchie se fait donc pas-à-pas en ajoutant un ensemble de concepts inférés des concepts du niveau inférieur. On itère le processus jusqu’à ce que tous les concepts soient liés à un nœud racine.

4 Résultats Expérimentaux

Pour valider notre approche, nous comparons la performance d’une classification plate d’images avec une classification hiérarchique exploitant la hiérarchie construite avec notre approche sur les données de Pascal VOC’2010 (11 321 images, 20 concepts).

4.1 Représentation Visuelle

Pour calculer la similarité visuelle des concepts, nous avons utilisé dans notre approche le modèle de sac-de-mots visuels (Bag of Features) (BoF). Le modèle utilisé BoF est construit comme suit: détection de caractéristiques visuelles à l’aide des détecteurs DoG de Lowe [Lowe99], description de ces caractéristiques visuelles en utilisant le descripteur SIFT [Lowe99], puis génération du dictionnaire eu utilisant un K-Means. Le dictionnaire généré est un ensemble de caractéristiques supposées être représentatives de toutes les caractéristiques visuelles de la base. Étant donnée la collection de patches (point d’intérêt) détectés dans les images de l’ensemble d’apprentissage, nous générons un dictionnaire de taille en utilisant l’algorithme k-Means. Ensuite, chaque patch dans une image est associé au mot visuel le plus similaire dans le dictionnaire en utilisant un arbre KD. Chaque image est alors représentée par un histogramme de mots visuels (1000 étant la taille du codebook), où chaque bin dans l’histogramme correspond au nombre d’occurrences d’un mot visuel dans cette image.

4.2 Pondération

Comme ce travail vise à construire une hiérarchie adaptée à l’annotation et la classification d’images, nous avons fixé les facteurs de pondération de manière expérimentale comme suit : , , et . Nos expérimentations sur l’impact des poids () ont également montré que la similarité visuelle est plus représentative de la similarité sémantique des concepts, comme cela est illustré sur la figure 3 avec la hiérarchie produite. Cette hiérarchie est construite sur les données de Pascal VOC’2010.

Figure 3: La hiérarchie sémantique construite sur les données de Pascal VOC en utilisant la mesure proposée et les règles de construction. Les nœuds en double octogone sont les concepts de départ, le nœud en diamant est la racine de la hiérarchie construite et les autres sont les nœuds inférés.        

4.3 Evaluation

Figure 4: Comparaison de la Précision Moyenne (AP) entre la classification plate et hiérarchique sur les données de Pascal VOC’2010.
(a) Concept Person.
(b) Concept Tv_monitor.
Figure 5: Courbes Rappel/Précision pour la classification hiérarchique (en +) et plate (en trait) pour les concepts "Personne" et "TV_Monitor".

Pour évaluer notre approche, nous avons utilisé 50% des images du challenge Pascal VOC’2010 pour l’apprentissage des classifieurs et les autres pour les tests. Chaque image peut appartenir à une ou plusieurs des 20 classes (concepts) existantes. La classification plate est faite par l’apprentissage de SVM binaires un-contre-tous, où les entrées sont les représentations en BoF des images de la base et les sorties sont les réponses du SVM pour chaque image (1 ou -1) - pour plus de détails voir la section 3.1. Un problème important dans les données de Pascal VOC est que les données ne sont pas équilibrées, i.e. plusieurs classes ne contiennent qu’une centaine d’images positives parmi les 11321 images de la base. Pour remédier à ce problème, nous avons utilisé la validation croisée d’ordre 5 en prenant à chaque fois autant d’images positives que négatives.

La classification hiérarchique est faite par l’apprentissage d’un ensemble de (+) classifieurs hiérarchiques conformes à la structure de la hiérarchie décrite dans la figure 3. est le nombre de nouveaux concepts créés lors de la construction de la hiérarchie. Pour l’apprentissage de chacun des concepts de la hiérarchie, nous avons pris toutes les images des nœuds fils (d’un concept donné) comme positives et toutes les images des nœuds fils de son ancêtre immédiat comme négatives. Par exemple, pour apprendre un classifieur pour le concept "Carnivore", les images de "Dog" et "Cat" sont prises comme positives et les images de "Bird", "Sheep", "Horse" et "Cow" comme négatives. Ainsi chaque classifieur apprend à différencier une classe parmi d’autres dans la même catégorie. Durant la phase de test de la classification hiérarchique et pour une image donnée, on commence à partir du nœud racine et on avance par niveau dans la hiérarchie en fonction des réponses des classifieurs des nœuds intermédiaires, jusqu’à atteindre un nœud feuille. Notons qu’une image peut prendre plusieurs chemins dans la hiérarchie. Les résultats sont évalués avec les courbes rappel/précision et le score de précision moyenne.

La Figure 4 compare les performances de nos classifieurs hiérarchiques avec les performances de la classification plate. L’utilisation de la hiérarchie proposée comme un cadre de classification hiérarchique assure des meilleures performances qu’une classification plate, avec une amélioration moyenne de +8.4%. Notons que ces résultats sont obtenus en n’utilisant que la moitié des images du jeu d’apprentissage de Pascal VOC. En effet, en l’absence des images de test utilisées dans le challenge, nous avons utilisé le reste de l’ensemble d’apprentissage pour faire les tests. Nous avons aussi inclus les images marquées comme difficiles dans les évaluations de notre méthode. La précision moyenne de notre classification hiérarchique est de 28,2%, alors que la classification plate reste à 19,8%. On peut donc remarquer une nette amélioration des performances avec l’utilisation de la hiérarchie proposée. La Figure 5 montre les courbes de rappel/précision des concepts "Personne" et "TV_Monitor" en utilisant la classification hiérarchique et plate. Une simple comparaison entre ces courbes montre que la classification hiérarchique permet d’avoir un meilleur rendement à tous les niveaux de rappel. Cependant, il serait intéressant de tester notre approche sur une plus grande base, avec plus de concepts, pour voir si la hiérarchie construite pour la classification des images passe à l’échelle.

5 Conclusion

Ce papier présente une nouvelle approche pour construire automatiquement des hiérarchies adaptées à l’annotation sémantique d’images. Notre approche est basée sur une nouvelle mesure de similarité sémantique qui prend en compte la similarité visuelle, conceptuelle et contextuelle. Cette mesure permet d’estimer une similarité sémantique entre concepts adaptée à la problématique de l’annotation. Un ensemble de règles est proposé pour ensuite effectivement relier les concepts entre eux selon la précédente mesure et leur ancêtre commun le plus proche dans WordNet. Ces concepts sont ensuite structurés en hiérarchie. Nos expériences ont montré que notre méthode fournit une bonne mesure pour estimer la similarité des concepts, qui peut aussi être utilisée pour la classification d’images et/ou pour raisonner sur le contenu d’images. Nos recherches futures porteront sur l’évaluation de notre approche sur des plus grandes bases d’images (MirFlicker et ImageNet) et sa comparaison avec l’état de l’art.

Références

Comments 0
Request Comment
You are adding the first comment!
How to quickly get a good reply:
  • Give credit where it’s due by listing out the positive aspects of a paper before getting into which changes should be made.
  • Be specific in your critique, and provide supporting evidence with appropriate references to substantiate general statements.
  • Your comment should inspire ideas to flow and help the author improves the paper.

The better we are at sharing our knowledge with each other, the faster we move forward.
""
The feedback must be of minimum 40 characters and the title a minimum of 5 characters
   
Add comment
Cancel
Loading ...
294423
This is a comment super asjknd jkasnjk adsnkj
Upvote
Downvote
""
The feedback must be of minumum 40 characters
The feedback must be of minumum 40 characters
Submit
Cancel

You are asking your first question!
How to quickly get a good answer:
  • Keep your question short and to the point
  • Check for grammar or spelling errors.
  • Phrase it like a question
Test
Test description