Unified Static and Dynamic Network : Efficient Temporal Filtering for Video Grounding

Inspired by the activity-silent and persistent activity mechanisms in human visual perception biology, we design a Unified Static and Dynamic Network (UniSDNet), to learn the semantic association between the video and text/audio queries in a cross-modal environment for efficient video grounding. For...

Ausführliche Beschreibung

Bibliographische Detailangaben
Veröffentlicht in:IEEE transactions on pattern analysis and machine intelligence. - 1979. - PP(2025) vom: 08. Apr.
1. Verfasser: Hu, Jingjing (VerfasserIn)
Weitere Verfasser: Guo, Dan, Li, Kun, Si, Zhan, Yang, Xun, Chang, Xiaojun, Wang, Meng
Format: Online-Aufsatz
Sprache:English
Veröffentlicht: 2025
Zugriff auf das übergeordnete Werk:IEEE transactions on pattern analysis and machine intelligence
Schlagworte:Journal Article