您的当前位置:首页 > 文化

图像和语音技术落地难题如何突围?六位大咖观点交锋

2020/2/13 15:54:41 我要评论

2019年,人工智能火了。其重要表现:人工智能在消费终端和商用终端的应用将不断加强。报告显示,2019年超过65%智能终端产品引入人工智能应用,包括手机、智能家居产品。更重要的是,2019年超过10%的商用终端产品也开始采用人工智能应用,商用办公助手成为新亮点。IDC预计,到2022年将有60%的商用终端产品采用人工智能。

IDC调研报告中的一大亮点是:围绕中国任务型应用中的亮点,超四成是视觉,超四成是语音语义。

6月28日,由<电子发烧友>主办的“人工智能领域图像和技术论坛“在深圳市南山区盛大召开,围绕计算机视觉、图像和语音语义的热点话题,来自云天励飞的芯片规划总监王监、Open AI?LAB 产品经理彭月涛、思必驰商务总经理王盱林、声希科技联合创始人孙立发博士、杭州国芯人工智能事业部总经理凌云和疯壳科技有限公司CTO刘燃带来了精彩的人工智能趋势前瞻和落地案例分享。

精彩问题覆盖了四大方面:在算法不断演进、客户需求不断变化的时代背景下,在智能安防、智慧楼宇和智慧社区领域,AI芯片公司如何为垂直化的应用场景设计出最合适的产品?AI应用不仅在云端,更多向边缘端转移,嵌入式AI发展具备哪些明显趋势和典型应用场景?语音AI芯片在IoT场景中有哪些实践应用?AI智能虚拟人主要在哪些领域获得广泛应用?小编为大家整理其中的精彩观点,详细内容如下。

云天励飞:AI芯片市场爆发,自研芯片挑战和机会并存

图:云天励飞的芯片规划总监王监

云天励飞的芯片规划总监王坚指出,人类数字化进程已经30年,到2020年,在和人工智能的推动下,进入AI IoT时代,人与人,人与物和物与物连接的时代,数据将呈现爆发式增长。

IDC预测,到2025年,全世界将有超过 1500 亿台联网设备,每个联网的人每天平均会有超过 4,900 次数字化数据互动?相当于每隔18秒就会有1次数字化互动。全球数据从2016年的20ZB到2025年175ZB,实时数据占比从2019年15%到2025年达到30%,这种数据必须通过AI计算进行提炼,产生数字结构化信息,才能为人类所用。这些要求对实时化、本地计算带来非常大的压力。

AI芯片作为AI应用落地的重要链条之一,IDC预测,2025年,云侧芯片规模将达到150亿美元,边缘计算和端芯片市场规模约516亿美元,AI进入爆发期,将带来千亿芯片市场空间。

王坚表示,垂直场景化芯片制定,云天励飞有自己独特的优势,但是AI芯片自研也面对困难和和挑战,高额的研发支出是悬在巨头与初创企业头上的剑,以Xavier 16G模组售价7999美元,投入20亿美金开发,预计卖到2000万套可以回本。终端芯片的成本压力可想而知。

王坚分析说,打开人工智能产业化有三大钥匙:芯片+算法+数据,环环相扣,缺一不可。芯片是否成为人工智能发展的一个障碍?垂直应用场景特征:多模态,图像、语音、语义和低时延,高能效、低成本和高安全。AI芯片作为隐私度很高的芯片,在AIoT时代,一定要注意安全性。AI芯片要实现可以编程,可以进行大规模并行处理,可以进行本地化训练和推理,减少芯片和外部空间的交互。

已经成立4年的云天励飞,已具备“算法+数据+芯片+应用+服务”端到端全栈式解决方案,王坚表示,云天励飞2015年推出的云天“深目”系统,是全球首套动态人像识别系统,目前已经稳定运行超过两年,协助公安破案超1万宗,落地中国和东南亚86个大中型城市。

2018年8月,云天励飞自主设计DeepEye1000,已经投片生产,定位自主可控的处理器芯片,为算法定制专用指令集处理器ASIP,视觉算法架构设计,支持FP16/INT16/INT12/INT8数据类型,超高能耗比~2Tops/W。这颗芯片还是视频编解码功能的芯片,支持4K P30,可以支持多个丰富的外设。通过指令集提供可编程,带宽可编程、算法可编程,还有数据可编程。除了芯片外,我们还提供芯片配套开发工具。提供全栈式工具链,兼容Caffe等主流框架。我们在前端模组做到200张抓拍能力。在边缘智能端做到单机16路/32路视频结构化能力。落地场景从智能安防,向智慧楼宇、智慧社区等多个场景扩展。

王坚透露,云天励飞公司已经与、万科、京东、海尔、富士康展开合作,将AI芯片带入更多应用领域。

Open AI Lab:端侧AI计算在嵌入式场景下的三大趋势

图:Open AI LAB 产品经理彭月涛

Open AI Lab产品经理彭月涛首先介绍了公司的定位和聚焦方向,开放智能机器(上海)有限公司,简称OPEN AI LAB,由生态加速器安创空间、全志科技、地平线机器人于2016年12月发起成立。业务模式聚焦AI产业化,基于AI落地为目的,探讨AI技术在嵌入式落地的问题。

当前AI应用普及化的路上有三大痛点:一是云端部署和运营成本过高:视频处理要求带宽大和时延低、和存储阵列昂贵且功耗高,AI系统趋势是大量AI计算需要向前端本地化迁移,云边端分布计算;二是前端算力弱、方案性能差:当前移动计算芯片跑NN太慢、市场上缺性价比高的边缘AI芯片,OPEN AI LAB提供的高效方式是充分挖掘现有硬件(芯片/模组)AI潜力,保护既有投资;三是算法开发适配难、效率低:终端芯片没有统一高效的算力平台、算法开发者无法适配硬件差异,OPEN AI LAB推出分工协作模式,算法开发者无须精通硬件,系统集成商可自由挑选算法。

OPEN AI LAB将解决这三大痛点视为其核心价值。彭月涛表示,嵌入式AI呈现三大趋势:第一、边缘计算,数据从云向端侧迁移,端云结合。云端算力需要解决带宽问题,第二、嵌入式端侧,需要做低时延、实时性的数据处理,进行推理,产生高质量的信息;第三、嵌入式AI产品全面渗透金融、医疗、安防、零售、业、以及家庭等行业,在物联网领域的智能终端,如、可穿戴设备、智能电视、智能摄像头等都有典型的应用。

目前,OPEN AI LAB为ARM生态开发者提供的重要的设计平台和工具主要有三块:EAIDK是全球首个采用Arm架构的人工智能开发平台,专为 AI 开发者精心打造,面向边缘计算的人工智能;ngine是一款轻量级高性能的神经网络推理引擎,专门针对Arm嵌入式设备优化;Tengine-Lite是近期推出的,专为设计的超轻量级AI推理框架,它能够适用于极端苛刻的MCU嵌入式开发环境。

在嵌入式AI开发平台,Open AI Lab可以做到:

1、和SoC厂家合作直接合作,以工业产品品质实施软、硬件平台开发。提供稳定、可靠的软硬一体化解决方案;

2、以商业应用案例支持AI算法应用教学,加速初学者;

3、提升算力、解决碎片化问题,赋能开发者;

4、“软硬平台+算法应用”一体化AI开发套件。与Arm生态系统合力打造开放,通用、标准化的端侧智能开发平台,配合Arm Open AI Platform战略;

5、行业客户、创客、极客AI创新验证平台;

6、智能产品研发、产品开发企业,产品原型开发、验证、以及小规模产品部署试点。

彭月涛介绍, OPEN Al LAB联合Arm中国、瑞芯微正式发布了面向教育及创客的嵌入式人工智能应用开发平台 EAIDK-610。EAIDK-610运行典型的深度学习算法,同等条件下,可对基于原始Caffe的实现进行3-5倍的加速,内存占用下降1倍,快速进行算法和原型验证。

Open AI Lab定位学校教育的综合方案提供商。联合企业及国家教育管理结构,扩大证书和自有比赛的影响力。有自然语音处理,有机器人、无人机套件可以提供给开发者,AI开发平台上有本地语音库、库、嵌入式深度学习框架和异构计算库,在基础软件部分支持操作系统和设备驱动。

思必驰AI语音瞄准三大场景,今年或发力可穿戴和会议转写

创业之初,思必驰业务聚焦于口语教育,自2014年谋求转型教育业务后,开始专注于智能语音开发赋能终端,并推出国内第一个对话智能云平台。在2015年~2018年期间,先后获阿里,富士康,MTK等投资,AI垂直终端产品研发进程得以进一步加快。

图:思必驰IoT商务总经理王盱林

“发展至今,公司已经不仅仅限于算法。”,思必驰IoT商务总经理王盱林表示,思必驰从小步慢跑已经逐渐成长为国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,自主研发了新一代的人机对话操作系统(DUI),和人工智能芯片;为车联网、IOT、以及众多行业场景合作伙伴提供自然语言交互解决方案。

王盱林指出,思必驰AI语音产品服务主要聚焦于三大场景,包括车载应用,消费类电子(如、电视等)及机器人。值得一提的是,今年思必驰将新增智能穿戴和会议转写场景服务,譬如低功耗无线耳机TWS、手表。

在这些IoT场景落地应用中,依托思必驰智能语音交互技术可以展现出九大核心优势。如远场交互、口语对话、兼容有无屏、第三方心源、技能丰富、数据可视化、OTA升级、企业VIP服务、合作灵活。同时,寄希望于DUI平台打通连接一个或多个IoT系统,实现全屋智能、互联互通。

声希科技:AI智能虚拟人在游戏和教育领域前景广阔

图:声希科技联合创始人孙立发博士

声希科技联合创始人孙立发博士强调指出,互联网和人工智能时代的差别,互联网红利逐渐消失,APP应用已经增长非常缓慢,互联网+解决信息不对称的问题和连接的问题。还有很多问题无法解决,比如医院一天看病人的数量有限,效率的问题和成本问题都无法解决,AI智能虚拟人可以帮助医生提高效率,人工智能可以解决效率的问题。

未来人机交互往哪个方向发展?孙立发博士说,语音交互、动作手势是趋势,语音交互式NUI最自然的交互方式之一,在开车的时候,用语音发号施令,手机助手里面可以用语音进行交互。

声希科技在AI智能虚拟人方面掌握四项关键技术:第一、发音纠错技术和语音识别技术,包括单词的重音,语音、语调是否正确。第二、自然语言处理和对话系统;第三、个性化语音。个性化体现在音色层面,可以定制奥巴马、林志玲的声音。核心技术四、图像和视频处理。未来可以实现自由对话,从语音合成,到图像、视频处理合成一体。

孙立发博士指出AI智能虚拟人需要的关键技术包括:语音合成模拟人的嘴巴,图像识别模拟人的眼睛,自然语言处理和对话系统模拟大脑。

目前在教育领域,市场的痛点在于优质师资不足且成本高,中小培训机构、英语APP等客户提出虚拟老师的需求,声希科技可以提供“双师AI课堂解决方案“帮助客户制作虚拟老师;在娱乐和游戏领域,市场的痛点是视频录制效率低且成本高,声希科技可以提供”虚拟形象生成方案“帮助客户制作虚拟主播。

可穿戴、车载、智能家居成AI语音未来典型场景应用

会上,杭州国芯人工智能事业部总经理凌云分享了AI语音芯片和应用结合实际落地的应用案例。并介绍国芯车载语音、智能音箱语音及语音电视(NaonalChip AI+IOT)三大场景应用方案。

图:杭州国芯片人工智能事业部总经理凌云

“AI自然语音交互,看似简单实则难。”杭州国芯片人工智能事业部总经理凌云表示,随着AI语音交互落地各场景中的应用越发普及,其中隐形的门槛或坑也随之显现,拾音&降噪,语音唤醒,AEC与声学结构都是需要考虑的因素。

从应用端来看,凌云指出,AI语音应用领域的划分主要是从人、车、家三部分考量。如针对人的可穿戴AI设备TWS耳机、手表、眼镜等未来市场空间及应用将会非常广阔。

第二部分是AI语音在车载的应用。从安全因素考虑,车载AI语音应用将会是未来市场的刚需场景,如车内音乐/电台播放、导航及打电话应用。

第三部分,针对智能家居场景的语音应用。凌云认为,智能音箱会逐渐成为室内家居语音应用中的智慧中心,通过其控制室内其它用电设备。在未来蓝牙将会被语音设备取替。

展望未来,凌云指出,语音交互体验、语音AI芯片PPA及IoT渗透率将持续提升,语音将变成按键、触摸后的又一个主流万物交互方式。

IT软硬件从业者,如何深入了解AI?

对于IT软硬件的从业者、工程师或即将毕业的学生,在AI方面到底如何做?是去做算法,还是去研究芯片?带着这个问题,疯壳科技CTO刘燃给出了他的答案,“AI技术要落地到具体的产品上,需要有两个部分,一是理论算法的研究实现,二是相关算法的使用。”

图:疯壳科技CTO刘燃

疯壳科技CTO刘燃指出,针对理论算法的研究更适合科学家和资金雄厚的企业,至于其他99%的开发者则学会使用这些优质算法的接口应用于产品上即可。

会上,刘燃展示了两款跟语音识别和的开发套件,并附上了教材。所有的硬件原理图包括通信代码等都是全开放的,另外一款是已经量产的AI语音识别机器人,非常适合工程师和学校的开发者。

那么,对于18岁以下的青少年儿童,又该如何学习理解AI的技术呢?不急,疯壳科技也带来了一款黑科技。

在展示环节,疯壳科技推出了这款针对青少年编程的“壳壳板”开源产品,它是把一些常用的工程物理集成在一个小板上,同时附带一套开发的化编程界面系统,使得青少年儿童上手容易,直接拖拽编程,做出各种各样的实验现象。


相关阅读:
电缆托运车 https://bzfeilong1.cn.china.cn/