Enhancing Video-Language Representations With Structural Spatio-Temporal Alignment
While pre-training large-scale video-language models (VLMs) has shown remarkable potential for various downstream video-language tasks, existing VLMs can still suffer from certain commonly seen limitations, e.g., coarse-grained cross-modal aligning, under-modeling of temporal dynamics, detached vide...
Ausführliche Beschreibung
Bibliographische Detailangaben
Veröffentlicht in: | IEEE transactions on pattern analysis and machine intelligence. - 1979. - 46(2024), 12 vom: 25. Dez., Seite 7701-7719
|
1. Verfasser: |
Fei, Hao
(VerfasserIn) |
Weitere Verfasser: |
Wu, Shengqiong,
Zhang, Meishan,
Zhang, Min,
Chua, Tat-Seng,
Yan, Shuicheng |
Format: | Online-Aufsatz
|
Sprache: | English |
Veröffentlicht: |
2024
|
Zugriff auf das übergeordnete Werk: | IEEE transactions on pattern analysis and machine intelligence
|
Schlagworte: | Journal Article |