项目概述

一个尖端的人工智能驱动的计算机视觉解决方案,提取所有独特的面孔, 对象, 还有摄像头拍到的车辆, 提供专业的视频编辑工具, 并产生详细的报告与元数据的每一个视频帧.

客户:一家财富500强企业,在世界各地拥有数千项技术专利和数十家子公司.

案例显示

  • 80.在实时跟踪中,7%的身份识别准确率
  • 超过95%的目标检测精度,车身和车载摄像机镜头不稳定
  • 高性能,实时全高清帧处理在目标分类和跟踪
  • 智能逻辑,允许检测比市场上大多数竞争者多400%的对象实例
  • 在视频剪辑过程中,超快30fps高清画面处理
  • 能够在提供的素材中检测几乎任何20px大小或更多的对象
  • 通过将视频处理时间平均缩短98次,大大提高了警务人员的工作效率.67%
  • 智能半自动模式识别出所有可疑视频片段,为警务人员提供可操作的提示,目标检测准确率100%
行业
公共安全, 电子产品
交付模型
Scope-driven只要发展
努力和持续时间
4个月,16个人工月
技术
Python, C++, Python, TensorFlow, OpenCV, Windows媒体基金会, CUDA, cuDNN, IMF媒体Engine, Javascript, WebAssembly, Emscripten

商业挑战

客户的目标是开发一个综合的计算机视觉驱动的解决方案,围绕警察部队的具体需求和要求设计. 考虑到应用范围,这项任务提出了若干挑战:

  • 摄取和处理来自穿戴式和车载摄像机的视频, 包括现场反馈, 摇摇欲坠的画面, 以及在恶劣环境条件下拍摄的镜头;
  • 人脸和目标检测和识别的最高精度;
  • 多面搜索在视频库,e.g. 按种族、性别、服装、头饰、纹身、行为等等;
  • 可靠的证据编辑工具能够模糊某一张脸, object, 或者从视频的每一帧里找到一辆车.

整体, 该项目旨在帮助警方在调查和法庭诉讼过程中,最大限度地减少过滤和手动纠正视频证据的时间和精力.

组建一个高度胜任的团队

mg娱乐网站提供了一个经验丰富的, 均衡的团队, 包括一个深度学习工程师, 计算数学专家, 数据分析专家, 系统集成专家. 该团队非常适合承担项目的挑战,并设法在有限的时间框架内实现高水平的生产力.

mg娱乐网站健壮R&D部门在关键阶段参与,以确保对新出现的问题找到最佳的技术解决方案.

交付解决方案

客户收到了一个强大的人工智能驱动的计算机视觉平台,该平台设计用于接收摄像机镜头以进行检测, 识别, 和跟踪的脸, 对象, 和车辆.

该解决方案有效地使用了过滤和业务逻辑, 例如时间轴依赖性, 在复杂的场景中减少误差,比如人脸部分模糊或车辆在降雪中移动.

mg娱乐网站团队成功地实现了证据编辑功能,允许用户在视频的每一帧中对自己选择的任何面部或物体进行模糊处理. 这一过程对法庭上的证人保护至关重要,以前是手工完成的, 耗费大量时间,增加人为错误的风险.

在摄取阶段,视频文件被解码并以一组帧的形式呈现. 然后, 采用先进的预处理算法对鱼眼畸变进行修复.

该解决方案依靠神经网络在每一帧中找到所需的实体, 检测人的姿势, 找到车辆的牌照. 发现所有感兴趣的物体后,系统能够在一组帧中跟踪它们.

最后, 系统生成一个报告,包含关于每个实体及其在每一帧中的出现的广泛的元数据.g. 每辆被发现车辆的缩略图, 它的车牌, color, 体风格, 以及在路上的行为).

智能自定义逻辑100%检测精度

该解决方案的自定义逻辑结合了四种类型的视频分析. 它们一起使用,可以在各种情况下实现接近100%的检测精度.

当先前捕获的实体突然从视图中消失时, 系统将其定位在下面的帧中,并将线性近似应用于中间的所有帧. 该智能逼近算法的设计大大提高了检测速度, 以及在深度学习方法失败或计算成本太高的情况下提高准确性.

上优于分析 当一个已识别的脸消失,而近似分析逻辑不能恢复它时,是否参与了——一个常见的情况是当一个脸通过框架边界.

当一个人或一辆车接近摄像机时,反向分析应用于先前的帧, 更容易识别.

当对象暂时从视图中隐藏时,遗漏对象分析就开始了.g. 当传递一个列时. 系统会推送一些未来的帧来快速重新捕捉它.

报告

报告功能允许用户根据用户提供的目标实体列表(具有可配置的相似度级别)创建每个视频的高度详细的概述.

系统提供了生成的缩略图的全面概述, 对成功识别的实体的洞察, 以及那些被错误识别或从未被发现的. 每个被识别的实体都伴随着一个日志,记录了它在哪些帧中可见,以及在哪些帧中必须在编校阶段进行模糊处理.

强大的技术堆栈

该应用程序是用c++编写的,基于Dlib跨平台的软件库和TensorFlow自定义神经网络. 该解决方案利用最大边缘对象检测(MMOD), 卷积神经网络(CNN和R-CNN), 全卷积网络(FCN), 和深度神经网络(DNN).

该项目依赖于微软媒体基金会框架和相应的解码插件来解压H.264和H.在MP4容器中放置265个视频剪辑,并将视频作为一组帧来呈现.

功能模块

c++ Windows应用程序帮助自动化检测, 识别, 以及对人们的跟踪, 对象, 和车辆. 此模块负责选择要包含到报表中的最佳缩略图, 并支持多方面的实体搜索.

自定义JS播放器可以进行大量的视频编辑操作, 包括文件导入, 逐帧导航, 对象模糊, 缩放, 和调整, 以及切割-每个检测到的脸和物体都有独立的层.

编校系统管理用户管理(创建, 编辑, 阻止用户), 视频存储和搜索, 以及视频处理后端.

业务价值

初始试验后, 与专业使用的其他类似产品相比,该解决方案显示出了优越的检测和识别质量. 该系统依赖于高度智能的逻辑,可以比竞争对手多检测多达400%的对象实例.

根据最近的估计, 该解决方案在视频处理方面带来了巨大的收益, 提高警察工作效率60倍.

从今天开始, 这是唯一优化的端到端解决方案,以解决警察工作中出现的一组特定痛点, 并且是唯一一个保证视频分析无缝自动化的.

出色的组合精度, 过程自动化, 丰富的视频编辑功能使该应用程序成为公共安全解决方案中极具价值的资产, 警方调查, 法庭审理.