构建“听觉”系统，声学技术在智慧城市大有可为

[ 智能网导读 ] 如果说智慧城市的感知神经其中有70%来自于基于视频监控的视觉系统，那么，作为仅次于视觉信息量的声音信息，将在智慧城市精细化管理的持续演进过程中扮演着越来越重要的角色。

图片来自“Unsplash”

本文转载自安防知识网，原标题《构建智慧城市“听觉”系统挖掘机器听觉技术应用价值》。智能网智慧城市对文章进行二次编辑，供读者参考。

前言：如果说智慧城市的感知神经其中有70%来自于基于视频监控的视觉系统，那么，作为仅次于视觉信息量的声音信息，将在智慧城市精细化管理的持续演进过程中扮演着越来越重要的角色。本次a&s有幸邀请到业内专注于机器听觉技术的微纳感知，为行业分享目前机器听觉技术在智慧城市、安防等领域的应用现状和未来发展空间!

Q：a&s总经理、总编辑关玉娟女士

A：微纳集成电路与系统应用研究院院长张国新

微纳感知计算技术有限公司 CTO 王丹

Q：作为一家提供智能语音解决方案的企业，贵司涉足安防领域的契机是什么?目前主要有哪些(安防领域)技术积累和产品铺垫?

张国新：我本人早前在华为数字媒体所以接触安防行业时间比较早，直到2013年微纳集成电路与系统应用研究院（以下简称“研究院”)成立，当时声音在安防领域的应用仍比较少见，而这也正透漏出一种机会，于是我们开始把复杂环境下的声音技术应用作为公司未来的发展方向。经过研究院三年左右的孵化，2016年我们正式将音频业务独立出来，成立了微纳感知技术公司。

公司的核心业务在于提供复杂场景下的智能语音解决方案。智慧城市场景下，声音无疑是图像信息最重要的补充，围绕着城市安防建设，继视频监控系统之后，按照主次逻辑，接下来将会进入音频技术的大面积开发应用阶段。经过六年左右的核心技术探索和积累，2018年微纳感知正式进军安防市场，目前我们已经和部分安防厂家达成了合作，推出了包括公安监所、交通管控、远程教育、会议系统等细分领域的音视频联动产品和方案。

王丹：复杂场景下的声音处理之所以此前一直没有大规模应用主要是因为技术实现上存在很大困难，首先要将声音从复杂环境中清晰的采集下来，其次要分析声音包含的信息，这些其实都非常困难。不过微纳感知从2013年便一直专注于机器听觉技术的研究，这其中的技术核心就包括麦克风阵列信号处理和基于AI技术的声音内容识别分析。

麦克风阵列信号处理技术主要包括回声消除、噪声&混响抑制等，将声音清晰采集下来后传送到后端人工智能引擎，然后基于AI技术展开声音类型识别分析的应用，比如识别枪声、鸣笛声、建筑工地施工噪音以及人声声纹检测、连续语音识别等等。

现阶段我们积累的技术已经能够实现商用化，并在一些行业领域正在展开相关应用。

Q：目前声学技术在安防领域的应用现状如何?

张国新：安防领域当前仍以视频监控视觉系统为主，声学技术的应用还相对较少，应用场景也比较窄众，主要在司法领域的监狱监仓有少量应用且产品相当传统，以低成本低性能的拾音器设备为主。对此我们推出了一套可适用于监仓的多麦阵列方案，可以更全面的收集监仓声音信息。

不过，随着平安城市建设以及智慧城市精细化管理需求的显著提升，相关政府职能部门对异声检测、城市噪音治理等方面的应用有明显的需求。比如交管部门对车辆鸣笛、改装车噪音管控；城管部门对于城市噪音管理；住建部对建筑施工噪音的管理以及公安部门对于特殊人群聚集等这些都有很强的诉求。这些诉求将直接驱动着声学技术在实际应用场景中作用方向，也蕴含着智慧城市、安防领域声学技术应用的发展潜力。

现阶段我们主要先从交通领域的鸣笛管控着手，微纳感知的鸣笛抓拍系统可以通过专业声学雷达，滤除环境干扰噪声（车辆引擎声、刹车声、电动车鸣笛声、建筑噪声等），精准锁定目标噪声源位置，准确定位到违章鸣笛车辆，并将声音可视化，为后台智能管理系统提供直观准确的车辆鸣笛执法证据。

Q：从利旧和成本方面考虑，鸣笛抓拍系统如何和现有的安防监控系统对接?

王丹：微纳感知的鸣笛抓拍系统主要由声学雷达、智能音频分析单元、智能管理系统及网络摄像机共同组成，前三部分都由我们来提供，因为接口都是标配的，有很好的兼容性，所以这套系统其实可以直接加装在现有的监控系统上且无需用户花太多成本去重新做整体改造。

另外，从成本角度来看，随着安防整体解决方案日趋成熟，现在前端设备的成本已经下降了很多。我们也在不断尝试，在保障产品和系统性能的基础之上，实现TCO(拥有成本)的最优化，即便是新建部署，也能让用户承受得起而不会成为负担。

Q：贵司和安防厂商有哪些合作方式?

张国新：合作方式主要有两种：一种是和安防设备商合作构建音视频联动完整的解决方案，安防设备厂商的前端监控设备结合我们的声学雷达加上智能音频分析单元就构成了一套相对完整的音视频联动方案，后台再和公安交警系统对接；另外一种是和其他的省、地市级集成商合作，我们一起构建渠道，共同推进智能音频检测整体解决方案在智慧城市行业领域的应用。

Q：如果没有政策引导，您认为对于监控厂商而言，加装声学系统的驱动力在哪里?

张国新：第一个在于可以挖掘智慧城市声音信息的采集，声音数据本身就有价值，未来随着音视频联动应用的逐渐成熟，通过声音信息的结构化处理，声音信息的应用价值将更加凸显。

第二，安防声学技术可以更好的辅助交通违法处理、城市噪音管控等应用，比如通过听觉系统可实时性的锁定鸣笛声源，或者系统一接收到民众呼救声音就可以直接联动报警等等。

音频虽然不是世界上目前最主流的要求，但整个城市的精细化管理已经成为显著方向，作为仅次于视频的信息量最大的补充信息，音频成为第二大感知系统这种概念将会在未来3-5年内成为行业共同的认知。

Q：目前阶段，安防领域声学技术应用市场竞争格局如何?

张国新：目前声学技术在安防领域的应用仍然处于初步尝试阶段，市场上能够提供相关技术方案的厂家并不多。以鸣笛检测技术方案为例，通过我们的场景实测，可以肯定的说微纳感知的技术积累相对于友商而言是有一定优势的。

另一个优势在于此前我们已经和优必选等企业合作了安防机器人的产品方案，因此微纳感知在安防机器人领域也占有一定技术应用优势。结合这些技术积累和经验优势，相信我们未来在安防领域的覆盖面会更广泛。

Q：贵司目前安防这一块的业务占比如何?

张国新：这几年来我们一直专注于声学技术方面的研究和突破，经过几年的积累，无论是在前端麦克风阵列技术还是后端基于AI对声音内容的分析处理都已经实现了一定程度的积累，接下来我们将进入到推进声学技术在行业领域普及应用的阶段。

安防是我们重点看好的行业领域，我们期望未来在公司的智慧城市和安防业务占比能够达到60%左右，不过现阶段还在探索中，包括基于球机的声音采集系统，来帮助智慧城市完善基于声音的信息源的大面积应用。

Q：声音不同于视频图像信息，它是动态的且无形的，在样本采集和声纹库建设方面是否存有难点?

王丹：其实跟视频图像的采集是类似的方式，只不过视频以帧为单位，而声音是连续的。计算机视觉有典型的ImageNet数据集，声纹数据集现在还比较少，主要是由像微纳感知这样的企业自主建设子集数据集，相信未来随着业内机器听觉技术应用的爆发，产业将会逐渐成熟。

而公安声纹库现阶段也在逐步建设，还是会像视频监控人脸库建设一样分期进行，比如一期主要采集特殊人群的声纹信息，二期才会建大量的常规声纹信息库，未来公民身份信息将会包含人像、指纹以及声纹等，整体建设方向大概是这样。

张国新：我们也有一些合作伙伴正在收集声音方面的信息，包括鸣笛声、城市噪音和声纹信息等，国家声纹库的建设在逐渐进展，但我们在技术方面的研发也会同时进行，即可用也可训练，这个过程是相辅相成的。

Q：机器听觉未来有没有可能作为视频图像侦查的补充，构成公安实战应用的重要一环?

王丹：这个是我们作为机器听觉技术和方案厂家的重要方向。现阶段，公安实战应用主要以视频侦查为主，而随着声学技术的日趋成熟，视频图像+声音信息的补充，将会将公安实战推到一个新的阶段。

但要达成这种级别的应用，还有很多技术需要先行突破。因为如果作为公安实战应用的补充，首先要控制系统的误报率，这对于现阶段的行业技术水平有比较大的挑战。我们针对这方面也做了一些特别的处理，从监督学习和非监督学习两方面着手，来降低系统的误报率。

Q：现阶段而言，声学技术的广泛应用还有哪些现存难点?

王丹：首先在技术方面，应用环境的复杂性对机器听觉系统的效能影响比较大。声音和距离的平方成反比，一段声音在空气中的传播，20米的距离衰减值大概有26Db,这是基本的理论值。其中一个大的难点在于，由于在户外环境声和人声的分贝值基本相等，所以要从环境声中清晰准确的还原出人声，这项技术有很大的难点，我们经过这几年的专注和积累才找到了一些技术突破。

其次，市场对于声学技术的应用仍处于探索阶段，市场需求虽然广泛存在，但距离技术落地应用仍然需要我们这样的企业携手合作伙伴加快推进。与此同时，我们也非常期待政府层面能够发力推出相关产业标准来进一步做市场引导，让声学技术在智慧城市以及细分行业领域的应用更快的成为共识。

Q：籍由这次采访，您想向产业传达什么讯息?

张国新：声学技术在智慧城市领域的应用，其中政府部门的需求引导和产业推动意义很大，目前相关落地应用仍然依赖着产品技术和应用企业的推进，作为声学技术方案提供商，我们已经完成了技术研究的基础工作，进入到应用阶段。人工智能和感知计算是未来我们国家的战略产业，我们非常期待政府部门能够牵头来助力声学技术在智慧城市、安防、教育、金融等领域的大面积应用，以应用促进产业和技术的更为良性的发展。

编后语：

在以前的智慧城市建设中，我们更多的关注在以视频监控系统所构建的“城市视觉系统”的应用方面，而本次通过对微纳感知的访谈，让我们打开了挖掘“城市听觉系统”应用的新思路。

视频能够完成城市监控、特征识别、视觉获取等方方面面的信息，而在眼睛看不到的地方，“听觉”系统的补充将进一步丰富和完善城市感知系统的维度。机器听觉在智慧城市的应用大有可为，从视听交互、声纹识别、听觉判断到语言学习，通过音视频联动，可以构建起城市实时感知的“眼睛”“耳朵”，由此来进一步提升城市精细化管理水平。

2019大湾区国际科创峰会.jpg