辞别美国终身教授，AI创业12年，陶海的商业感悟与AI理解

发布时间：2017.05.15 分享：

陶海介绍

陶海博士在清华大学本科和研究生学习期间，师从边肇祺教授从事指纹识别方面的研究。后在美国伊利诺伊大学香槟分校(UIUC)攻读博士，在Thomas S. Huang（黄煦涛）教授指导下，进行人脸表情识别、非刚体运动跟踪和超低码率视频传输方面的研究。 2001年至2010年期间，陶海博士任加利福尼亚大学圣塔克鲁兹分校助理教授、副教授（终身教授）。2005年创立北京文安智能技术股份有限公司，于2016年10月挂牌新三板。

人工智能的三个不同层次

第一层是记忆和有规则的计算与推理。记忆力是人类智能的重要组成部分，在这方面，计算机系统早就打败人类了。早期的人类用绳子、甲骨文作为记忆符号，后来有了文字和更抽象的二进制数字，载体从石片、甲骨、纸片发展到现在的磁带、光盘、闪存。人类大脑能够存储的信息量，早就比不上计算机。

在数字计算上，最聪明的速算家，也比不过一个简单的计算器。在有固定规则的博弈方面，Deep Blue在1997年打败国际象棋世界冠军卡斯帕罗夫。围棋最复杂，但终于也被Alpha Go拿下了。Alpha Go算法根据棋形训练两个网络，对棋招和局面进行筛选和评估，利用深度学习实现了一个更好的搜索和评价方法，但是总体思路还是搜索的优化，需要大量的计算力支撑。

大家都说人工智能迎来了革命性的发展，其实还言之过早。在我读大学的时候，正赶上上一轮神经元网络的热潮，还是同样的BP算法，不过网络很浅。现在计算芯片能力几个数量级地提高，加上一些关键的BP算法改进技巧，大型的神经元网络可以训练了，但是还是在做回归拟合。

但为什么大家觉得人工智能这个热潮来了呢？

人工智能第二层是语音识别、图像识别与计算机视觉、NLP（自然语言处理）。深度神经元网络在这个层面上带来了AI技术产业化的巨大机会。以前语音识别到90%，用户体验很差，现在有了深度学习和大量的训练数据，识别率突然可以到99%了，用户体验好，很多产品成为可能。未来几年，在这方面我们会看到大量的技术创新。在基础能力方面的创新，包括存储和高性能计算，因为投入巨大，比较适合大型公司做。而在应用领域，因为AI技术可以应用于各行各业，非常适合创业公司。

那么现在有一种说法，未来80%的工作都会被人工智能和机器人替代，人类将失业，后果很严重。其实未必。如果你多到工厂里看看，看到工人在生产线上像电影《摩登时代》里一模一样，一天重复着一个动作，艰辛劳作，你会觉得这是违反人类天性的。自第一次工业革命以来，机器就开始取代人类的工作，时至今日，很多重复性体力工作已经被机器替代，而机器替代不了的是要求柔性和灵活度比较高的工序。

展望未来，所有生产环节越来越多地会被机器替代的，世界上只要有清洁能源比如聚变，就能使海水淡化、粮食生长、分散了的金属元素聚合、机器人工作，总之，就可以熵减、有序。人类是永远不会因为机器来了就导致失业的，因为我们有更多的事情需要做，我们需要教育我们的后代，需要赡养照顾我们的老人，需要治疗照顾医患，需要对未来进行探索，需要创造艺术和美。这都需要消耗大量的人力，且机器无法替代。我们现在只是忙于机械劳作，忙于糊口，没有办法花全部时间来做这些事。

人工智能的第三层，也就是强人工智能，就是实现人类创新，探索，思辨等高级能力。目前这方面你如果认真去读AI领域NIPS，ICML或者CVPR，ICCV等国际会议最新论文，应该会很失望。即使是学术领域，在这方面的进展，也是非常缓慢。就好像在等着一个AI领域的爱因斯坦出现。

人工智能的优势和限制

DNN（深度神经网络）既然是在NN（神经网络）的基础上深入，依然是一个回归拟合器，以往输入大量的图片信息，BP算法要算上一年，还不收敛。现在最新的GPU可以把这个训练过程缩短到几个小时。DNN的规模也越来越大。微软孙剑博士领导的研究小组，提出了可以达到成百上千层的ResNet，这个神经网络性能优异，能记住的内容更多，输出的结果更准确。

另一方面，实际应用当中，数据往往是不充足的，甚至是稀缺的。人类的认知能力其实也不需要大数据，这样的AI怎么做？举个例子，一些无人驾驶企业夸耀自己拥有一百万小时的驾驶数据，甚至一亿小时的数据，认为这是其核心竞争力。但是一般人学一两个月就拿到驾照了。所以思路上肯定有些问题。在场景无法穷尽的领域，比如全自动驾驶，寄希望于基于深度网络这样的拟合器加海量数据，使得所有未来场景，过去都见过的方法论，注定是要失败的。

创业到了好时机

三方面的量变引起了视觉乃至AI技术的广泛应用

1、更高分辨率的图像传感器。60年代图片像素只有100*100，早期的安防摄像图片像素也是影影绰绰的，低像素的图片缺乏深度挖掘的价值，现在视频的像素都是1080P，也就是200万像素，再过几年将会步入4K的分辨率，物体细节都看清了，人、车、物、文字都可以识别了。

2、先进的深度学习神经网络：以卷积神经元网络（CNN）和递归神经元网络（RNN）为基础，几年来物体检测、物体识别、图像分割、图像生成、语音识别、人脸识别等领域的算法突飞猛进，性能指标不断提高，很多都达到了产品化的实用水平。我们听说过“宁可错杀1万，不能放过1个”，这代表着早期的智能识别产品高检测率，高误报率的特点。但是好的产品应该是“不能错杀1个，也不能放过1个”，亦即高检测率，低误报率。现在技术的进步，正在向这个方向快速推进。

3、高性能、低功耗、低成本深度学习芯片：随着以nVidia、Xilinx、Movidius为代表的处理器厂家大力推动GPU、FPGA和VPU芯片的发展，使得文安智能能够开发出高性能“繁星”GPU集群服务器。在一个2U服务器的体积内，集成40颗GPU芯片，能处理80路1080P分辨率的摄像头视频。相比之前一台PC服务器只能处理8路视频，效能提高一个数量级，单路视频处理的硬件成本大幅下降。可以预期未来几年，基于视频分析的各种商业场景的应用将会得到普及。

AI商业模式探索

陶海博士认为，文安智能做了12年，尝试过很多模式，观察下来有几条路可以走：

1、开放的算法平台/开放的AI芯片。这个不一定适合创业型公司做，因为BAT等大公司有快速、低成本获得用户基数的优势。一些识别功能甚至免费打包到云服务中去。对于初创型公司，芯片也要慎重，芯片成功的要素除了优异的识别性能，更在于成本和出货量。芯片开发人员成本和流片成本都很高，一定要看准再动手。但是没有芯片，就开发不出有量的应用，有点鸡生蛋，蛋生鸡的困惑。

2、做硬件模块或者软件SDK。这两类的企业都会面临着终端产品企业的价格压榨。在技术不成熟、成本居高不下的大背景下，硬件模块和软件SDK的销量有限。当量起来，技术也成熟的时候，又会有巨头切入，高毛利会在竞争对手的拉锯战中渐渐降到合理水平，而最后采购话语权在终端厂家手里。

结论：成功的创业一定是模式上端到端（直接做出产品，面对客户）

陶海博士分析现有的业务，产业链长的行业，文安智能目前还是提供产品和解决方案的形式，在上游依靠专业的集成商。但是在产业链相对短的行业，是能够做到全产业贯通的，能够做到端到端的。但不管怎么样，作为技术公司，都应做到完整解决方案。虽然随着人工智能技术的出现，市面上出现很多初创型的技术型公司，但在国内，长期下去，技术型公司也要发展自己的渠道，并建立起牢固的渠道壁垒。

结论：成功的创业一定是三位一体（算法、硬件、数据与应用平台）

3、To B 还是To C？To B相对于To C，对技术的不成熟有比较高的容忍度，面向To B，可以有售后服务作为补充，面向To C，不可能做到细致的售后服务。对产品成熟度要求更高。

面向To B市场，在视频技术和音频技术都有大公司的身影。视频技术有海康威视，音频技术有科大讯飞，如何与巨头共舞是所有创业者必须面临的思考，最好是技术特别牛，与巨头形成互补，或者与巨头的业务形成区隔，寻找新的利基市场，并迅速形成行业壁垒。

本文作者极客王子，亿欧专栏作者；转载请注明作者姓名和“来源：亿欧”；文章内容系作者个人观点，不代表亿欧对观点赞同或支持。

上一篇：『文安简讯』文安智能&长沙联通，携手开启新征途下一篇：董事长陶海博士上榜最受媒体关注AI企业家Top10 返回列表