Temporal Representation Learning on Monocular Videos for 3D Human Pose Estimation

In this article we propose an unsupervised feature extraction method to capture temporal information on monocular videos, where we detect and encode subject of interest in each frame and leverage contrastive self-supervised (CSS) learning to extract rich latent vectors. Instead of simply treating th...

Ausführliche Beschreibung

Bibliographische Detailangaben
Veröffentlicht in:IEEE transactions on pattern analysis and machine intelligence. - 1979. - 45(2023), 5 vom: 17. Mai, Seite 6415-6427
1. Verfasser: Honari, Sina (VerfasserIn)
Weitere Verfasser: Constantin, Victor, Rhodin, Helge, Salzmann, Mathieu, Fua, Pascal
Format: Online-Aufsatz
Sprache:English
Veröffentlicht: 2023
Zugriff auf das übergeordnete Werk:IEEE transactions on pattern analysis and machine intelligence
Schlagworte:Journal Article Research Support, Non-U.S. Gov't