目的 时空动作检测任务旨在预测视频片段中所有动作的时空位置及对应类别.然而,现有方法大多关注行动者的视觉和动作特征,忽视与行动者交互的全局上下文信息.针对当前方法的不足,提出一种结合扩张卷积与多尺度融合的高效时空动作检测模型(efficient action detector,EAD).方法 首先,利用轻量级双分支网络同时建模关键帧的静态信息和视频片段的动态时空信息.其次,利用分组思想构建轻量空间扩张增强模块提取全局性的上下文信息.然后,构建多种DO-Conv结构组成的多尺度特征融合单元,实现多尺度特征捕获与融合.最后,将不同层次的特征分别送入预测头中进行检测.结果 实验在数据集UCF101-24和AVA(atomic visual actions)中进行,分析了 EAD与现有算法之间的检测对比结果.在UCF101-24数据集上的帧平均准确度(frame-mAP)和视频平均准确度(video-mAP)分别为80.93%和50.41%,对于基线方法的漏检、错检现象有所改善;在AVA数据集上的frame-mAP达到15.92%,同时保持较低的计算开销.结论 通过与基线及目前主流方法比较,EAD以较低的计算成本建模全局关键信息,提高了实时动作检测准确度.