摘要
本发明涉及计算机视觉与人工智能领域,尤其是涉及图像事件多模态语义分割方法、装置及设备,可应用于自动驾驶、机器人感知及智能交通等场景;通过固定时间窗口划分时间片并累积事件信息,将异步事件流转化为 T×H×W 体素张量;利用 Mamba 架构的选择性状态扫描机制,替代传统 Transformer 的自注意力机制,在建模全局特征依赖的同时将计算复杂度降低,解决 Transformer 高分辨率场景下显存与延迟问题;另外,通过跨空间交互对齐图像纹理与事件边缘、跨时间交互捕捉事件动态时序,再以残差连接保留模态固有特性,有效避免了过度融合导致的特征退化;最终有效提升了图像分割精度,同时提升了处理效率和模型鲁棒性。
技术关键词
融合特征
分支
图像
语义分割方法
事件流数据
注意力机制
三维网格结构
时间片
多尺度特征提取
输出特征
编码器
跨模态
模块
分辨率
事件相机
多模态
时序
融合多尺度特征