Visual Oriented Encoder: Integrating Multimodal and Multi-Scale Contexts for Video Captioning

Visual Oriented Encoder: Integrating Multimodal and Multi-Scale Contexts for Video Captioning | IEEE Conference Publication | IEEE Xplore