Modèle déformable recalage

Troisièmement, notre méthode utilise des fonctionnalités fabriquées à la main, telles que HOG, HOF et MBH. Ces caractéristiques peuvent produire des propositions de régions sous-optimales pour les parties du corps du modèle. Nous pouvons les améliorer en utilisant des techniques qui ne reposent pas sur des fonctionnalités fabriquées à la main, telles que Faster R-CNN [35]. Le principal avantage de cette approche est que la localisation exacte d`une personne n`est pas nécessaire. L`approche est réussie dans la création de dictionnaires discriminatifs des mouvements dans la scène qui représentent implicitement les interactions. Il n`y a pas de lien explicite entre le mouvement de bas niveau et les parties du corps humain. Sans ces informations de pose, les schémas discriminatifs des mouvements d`image sont modélisés implicitement, par exemple en utilisant des mots de code spatio-temporels co-récurrents [15]. Pour localiser une interaction, des étapes supplémentaires doivent être prises, telles que le regroupement des trajectoires denses [16, 17]. Lorsqu`un nombre suffisant de trajectoires peut être groupé, le volume créé par l`ensemble englobe approximativement l`interaction. Cette approche est moins fiable en présence d`autres motions, par exemple lorsque plusieurs personnes interagissent à proximité. Nous évaluons les modèles HOGHOFMBH sur le jeu de données UT-interaction. Lorsque nous appliquons notre modèle à un environnement qui n`a pas été vu auparavant, les scores de classification lSVM sont nettement inférieurs.

Il en résulte un décalage négatif sur l`échelle de Platt, ce qui provoque des détections positives et négatives à tomber sur l`extrémité inférieure de la fonction sigmoïde, entraînant de mauvaises performances. Nous résolvons cela en réutilisant les scores de réponse avec l`algorithme Platt à l`aide d`une validation croisée leave-one-out sur l`ensemble de données UT-interaction. Nous rapmettons l`ASC moyenne avec un chevauchement minimal entre le tube détecté et le volume de la vérité au sol (EQ. 4) de 10% (σ = 0,1), car le point de coupure est plus faible pour ces résultats. Chaque partie peut être mise à l`échelle de façon indépendante et transformée spatio-temporelle, pour mieux s`adapter à l`interaction qui est modélisé. Il en résulte un modèle de pièces déformables extrêmement flexible capable de capturer des différences fines entre différents types d`interaction. Nous ne permettons pas la mise à l`échelle de cette façon pour DS et DT. DS traite des déformations entre les réponses de différentes couches pyramidales. Permettre aux pièces de se déplacer indépendamment dans cette dimension provoque des délocalisations entre les treillis des emplacements de pièce à différentes échelles.

Cela se produit lorsque la différence de taille entre deux couches consécutives est non intégrale. Dubout et fleuret résolvent cela en rapprochant la position de la racine d`une pièce en l`arrondissant à sa position intégrale la plus proche [29]. Nous prenons une approche légèrement différente. Au lieu d`arrondir l`emplacement de la pièce à la position de la racine, nous mettons à l`échelle σI V w i (l i − l) par θ s, qui est le facteur par lequel l`entrée originale dans la couche s de la pyramide des entités a été mise à l`échelle. Par conséquent, chaque réponse d`entité à une couche de la pyramide devient une réponse d`espace d`échelle avec les mêmes dimensions spatiales.

13. Φεβρουαρίου 2019 by
Leave a comment