Single-Frame Supervision for Spatio-Temporal Video Grounding

Spatio-Temporal Video Grounding (STVG) aims at localizing the spatio-temporal tube of a specific object in an untrimmed video given a free-form natural language query. As the annotation of tubes is labor intensive, researchers are motivated to explore weakly supervised approaches in recent works, wh...

Ausführliche Beschreibung

Bibliographische Detailangaben
Veröffentlicht in:IEEE transactions on pattern analysis and machine intelligence. - 1979. - PP(2024) vom: 18. Juni
1. Verfasser: Liu, Kun (VerfasserIn)
Weitere Verfasser: Qu, Mengxue, Liu, Yang, Wei, Yunchao, Zhe, Wenming, Zhao, Yao, Liu, Wu
Format: Online-Aufsatz
Sprache:English
Veröffentlicht: 2024
Zugriff auf das übergeordnete Werk:IEEE transactions on pattern analysis and machine intelligence
Schlagworte:Journal Article