关于我们

ABOUT VIONVISION

关于我们 公司动态 加入VION

辞别美国终身教授,AI创业12年,陶海的商业感悟与AI理解

发布时间:2017.05.15 分享:

陶海介绍

陶海博士在清华大学本科和研究生学习期间,师从边肇祺教授从事指纹识别方面的研究。后在美国伊利诺伊大学香槟分校(UIUC)攻读博士,在Thomas S. Huang(黄煦涛)教授指导下,进行人脸表情识别、非刚体运动跟踪和超低码率视频传输方面的研究。 2001年至2010年期间,陶海博士任加利福尼亚大学圣塔克鲁兹分校助理教授、副教授(终身教授)。2005年创立北京文安智能技术股份有限公司,于2016年10月挂牌新三板。


人工智能的三个不同层次

第一层是记忆和有规则的计算与推理。记忆力是人类智能的重要组成部分,在这方面,计算机系统早就打败人类了。早期的人类用绳子、甲骨文作为记忆符号,后来有了文字和更抽象的二进制数字,载体从石片、甲骨、纸片发展到现在的磁带、光盘、闪存。人类大脑能够存储的信息量,早就比不上计算机。


在数字计算上,最聪明的速算家,也比不过一个简单的计算器。在有固定规则的博弈方面,Deep Blue在1997年打败国际象棋世界冠军卡斯帕罗夫。围棋最复杂,但终于也被Alpha Go拿下了。Alpha Go算法根据棋形训练两个网络,对棋招和局面进行筛选和评估,利用深度学习实现了一个更好的搜索和评价方法,但是总体思路还是搜索的优化,需要大量的计算力支撑。


大家都说人工智能迎来了革命性的发展,其实还言之过早。在我读大学的时候,正赶上上一轮神经元网络的热潮,还是同样的BP算法,不过网络很浅。现在计算芯片能力几个数量级地提高,加上一些关键的BP算法改进技巧,大型的神经元网络可以训练了,但是还是在做回归拟合。

但为什么大家觉得人工智能这个热潮来了呢?

人工智能第二层是语音识别、图像识别与计算机视觉、NLP(自然语言处理)。深度神经元网络在这个层面上带来了AI技术产业化的巨大机会。以前语音识别到90%,用户体验很差,现在有了深度学习和大量的训练数据,识别率突然可以到99%了,用户体验好,很多产品成为可能。未来几年,在这方面我们会看到大量的技术创新。在基础能力方面的创新,包括存储和高性能计算,因为投入巨大,比较适合大型公司做。而在应用领域,因为AI技术可以应用于各行各业,非常适合创业公司。


那么现在有一种说法,未来80%的工作都会被人工智能和机器人替代,人类将失业,后果很严重。其实未必。如果你多到工厂里看看,看到工人在生产线上像电影《摩登时代》里一模一样,一天重复着一个动作,艰辛劳作,你会觉得这是违反人类天性的。自第一次工业革命以来,机器就开始取代人类的工作,时至今日,很多重复性体力工作已经被机器替代,而机器替代不了的是要求柔性和灵活度比较高的工序。


展望未来,所有生产环节越来越多地会被机器替代的,世界上只要有清洁能源比如聚变,就能使海水淡化、粮食生长、分散了的金属元素聚合、机器人工作,总之,就可以熵减、有序。人类是永远不会因为机器来了就导致失业的,因为我们有更多的事情需要做,我们需要教育我们的后代,需要赡养照顾我们的老人,需要治疗照顾医患,需要对未来进行探索,需要创造艺术和美。这都需要消耗大量的人力,且机器无法替代。我们现在只是忙于机械劳作,忙于糊口,没有办法花全部时间来做这些事。


人工智能的第三层,也就是强人工智能,就是实现人类创新,探索,思辨等高级能力。目前这方面你如果认真去读AI领域NIPS,ICML或者CVPR,ICCV等国际会议最新论文,应该会很失望。即使是学术领域,在这方面的进展,也是非常缓慢。就好像在等着一个AI领域的爱因斯坦出现。

 

人工智能的优势和限制


DNN(深度神经网络)既然是在NN(神经网络)的基础上深入,依然是一个回归拟合器,以往输入大量的图片信息,BP算法要算上一年,还不收敛。现在最新的GPU可以把这个训练过程缩短到几个小时。DNN的规模也越来越大。微软孙剑博士领导的研究小组,提出了可以达到成百上千层的ResNet,这个神经网络性能优异,能记住的内容更多,输出的结果更准确。


另一方面,实际应用当中,数据往往是不充足的,甚至是稀缺的。人类的认知能力其实也不需要大数据,这样的AI怎么做?举个例子,一些无人驾驶企业夸耀自己拥有一百万小时的驾驶数据,甚至一亿小时的数据,认为这是其核心竞争力。但是一般人学一两个月就拿到驾照了。所以思路上肯定有些问题。在场景无法穷尽的领域,比如全自动驾驶,寄希望于基于深度网络这样的拟合器加海量数据,使得所有未来场景,过去都见过的方法论,注定是要失败的。


创业到了好时机

三方面的量变引起了视觉乃至AI技术的广泛应用


1、更高分辨率的图像传感器。60年代图片像素只有100*100,早期的安防摄像图片像素也是影影绰绰的,低像素的图片缺乏深度挖掘的价值, 现在视频的像素都是1080P,也就是200万像素,再过几年将会步入4K的分辨率,物体细节都看清了,人、车、物、文字都可以识别了。


2、先进的深度学习神经网络:以卷积神经元网络(CNN)和递归神经元网络(RNN)为基础,几年来物体检测、物体识别、图像分割、图像生成、语音识别、人脸识别等领域的算法突飞猛进,性能指标不断提高,很多都达到了产品化的实用水平。我们听说过“宁可错杀1万,不能放过1个”,这代表着早期的智能识别产品高检测率,高误报率的特点。但是好的产品应该是“不能错杀1个,也不能放过1个”,亦即高检测率,低误报率。现在技术的进步,正在向这个方向快速推进。


3、高性能、低功耗、低成本深度学习芯片:随着以nVidia、Xilinx、Movidius为代表的处理器厂家大力推动GPU、FPGA和VPU芯片的发展,使得文安智能能够开发出高性能“繁星”GPU集群服务器。在一个2U服务器的体积内,集成40颗GPU芯片,能处理80路1080P分辨率的摄像头视频。相比之前一台PC服务器只能处理8路视频,效能提高一个数量级,单路视频处理的硬件成本大幅下降。可以预期未来几年,基于视频分析的各种商业场景的应用将会得到普及。


AI商业模式探索

陶海博士认为,文安智能做了12年,尝试过很多模式,观察下来有几条路可以走:


1、开放的算法平台/开放的AI芯片。这个不一定适合创业型公司做,因为BAT等大公司有快速、低成本获得用户基数的优势。一些识别功能甚至免费打包到云服务中去。对于初创型公司,芯片也要慎重,芯片成功的要素除了优异的识别性能,更在于成本和出货量。芯片开发人员成本和流片成本都很高,一定要看准再动手。但是没有芯片,就开发不出有量的应用,有点鸡生蛋,蛋生鸡的困惑。


2、做硬件模块或者软件SDK。这两类的企业都会面临着终端产品企业的价格压榨。在技术不成熟、成本居高不下的大背景下,硬件模块和软件SDK的销量有限。当量起来,技术也成熟的时候,又会有巨头切入,高毛利会在竞争对手的拉锯战中渐渐降到合理水平,而最后采购话语权在终端厂家手里。


结论:成功的创业一定是模式上端到端(直接做出产品,面对客户)


陶海博士分析现有的业务,产业链长的行业,文安智能目前还是提供产品和解决方案的形式,在上游依靠专业的集成商。但是在产业链相对短的行业,是能够做到全产业贯通的,能够做到端到端的。但不管怎么样,作为技术公司,都应做到完整解决方案。虽然随着人工智能技术的出现,市面上出现很多初创型的技术型公司,但在国内,长期下去,技术型公司也要发展自己的渠道,并建立起牢固的渠道壁垒。


结论:成功的创业一定是三位一体(算法、硬件、数据与应用平台)


3、To B 还是To C?To B相对于To C,对技术的不成熟有比较高的容忍度,面向To B,可以有售后服务作为补充,面向To C,不可能做到细致的售后服务。对产品成熟度要求更高。


面向To B市场,在视频技术和音频技术都有大公司的身影。视频技术有海康威视,音频技术有科大讯飞,如何与巨头共舞是所有创业者必须面临的思考,最好是技术特别牛,与巨头形成互补,或者与巨头的业务形成区隔,寻找新的利基市场,并迅速形成行业壁垒。



本文作者极客王子,亿欧专栏作者;转载请注明作者姓名和“来源:亿欧”;文章内容系作者个人观点,不代表亿欧对观点赞同或支持。