PiGLET : Pixel-Level Grounding of Language Expressions With Transformers
This paper proposes Panoptic Narrative Grounding, a spatially fine and general formulation of the natural language visual grounding problem. We establish an experimental framework for the study of this new task, including new ground truth and metrics. We propose PiGLET, a novel multi-modal Transform...
Ausführliche Beschreibung
Bibliographische Detailangaben
Veröffentlicht in: | IEEE transactions on pattern analysis and machine intelligence. - 1979. - 45(2023), 10 vom: 20. Okt., Seite 12206-12221
|
1. Verfasser: |
Gonzalez, Cristina
(VerfasserIn) |
Weitere Verfasser: |
Ayobi, Nicolas,
Hernandez, Isabela,
Pont-Tuset, Jordi,
Arbelaez, Pablo |
Format: | Online-Aufsatz
|
Sprache: | English |
Veröffentlicht: |
2023
|
Zugriff auf das übergeordnete Werk: | IEEE transactions on pattern analysis and machine intelligence
|
Schlagworte: | Journal Article |