商汤科技的 OpenAI 野心

商汤科技联合创始人、大装置事业群总裁杨帆

 

(一)令人意想不到的是,杨帆在接受我采访时指出:

大模型并没有带来商汤科技的新故事。恰恰相反,大模型只是印证了商汤科技在 2019 年时所做出的一个判断。

在此之前,杨帆和我提到了一个重要的观点。他认为,从商汤科技作为一家 AI 原生公司的视角看:

所谓的“大算力 大模型”,其实是随着数据量和算力达到一定数量级之后,一些量变引发了质变,从而突破了一些人的传统认知,认为这个东西和以前有很大的不同。但从技术的角度看,没有根本性改变,更多是一个持续性发展的过程和结果,因为当模型足够大了之后,可以把很多复杂的问题泛化为一个通用问题。

比如在自动驾驶领域,未来路上常见的、具体的 99% 以上的物体,都可以用一个模型来解决,从而加速整个自动驾驶技术的发展。再比如此前智能音箱的人机对话,过去需要一些标准句式,否则体验感不好,但通过 LLM,只要是用户正常日常交流中会出现的语句语式,它就基本不会出错。

“因此,大模型带来的不光是效率的提升,而是让原本一些体验不够好而无法形成大规模应用的场景,到今天可以形成大规模的应用。”杨帆指出。

随后,杨帆和我分享了在商汤科技内部发生的一些故事。

杨帆表示:自 2014 年商汤科技成立,杨帆就一直在公司各业务部门做轮转。2017-2018 年时,他发现了市场上的一个巨大痛点:

作为一个纯 AI 技术公司,彼时,商汤在做产业落地时必须把全环节都做了,甚至连客户的安装实施,都需要由商汤来提供一份详细的实施指导手册。

如在安装智慧化摄像头时,扭完螺丝之后需要做一些角度的调教和简单的测试,但供应商们并没有这个概念,就会导致安装出现问题。这也大大延宕了整个人工智能在各行业做渗透和应用的速度。

“这个时候我发现,如果真要把 AI 在一个场景落实好,其实需要公司既懂 AI,又懂场景,但这太难了。”杨帆说:“而让商汤员工自己做又不现实,因为他们都是高科技研发人才,这样做人力成本高、性价比太低。”

到了 2018-2019 年,趋势开始发生变化:随着人工智能产业的发展,出现了一波小的 AI 公司。

他们的 AI 原生技术不强,但在理解某一个具体产业的场景时,非常强。这些公司的创始人通常学历很高,技术也很厉害,但很多并非 AI 出身,而是具有某一行业的背景和经历,能够拿到行业的某些资源来做行业的智慧化落地。不过,尽管他们能更好地理解客户想要什么,但在技术解决能力方面,也会有较为明显的劣势。

经过这两个阶段,商汤科技内部已经形成了一个判断,那就是:由于人工智能是一个足够通用的技术,从长期看,产业最后一定会分层。

具体而言:底下的一层,将会有人去提供基础设施核心能力,以把使用人工智能的门槛和成本给打下来。

而经由底下一层支撑起来的上面那一层,则会是一个百花齐放的应用生态层。在这一层里,做应用的人不一定会强调 AI,但他们理解应用,可以把整个信息化、智能化的技术体系拿来拼在一起去解决客户的问题。

2022 年底,大模型 ChatGPT 横空出世,这更加印证了商汤的上述判断。

“因为大模型的一次性研发投入非常大,风险很大,很可能搞了几年之后发现别人做得比你好,导致自己的模型没人用了。”杨帆指出。

“但反过来讲,如果你能把大模型做得足够好,把其变成一个 API 提供给上面使用的人时,你就可以把 API 的成本降到足够低。我们相信人工智能技术将来一定会渗透进所有行业,而且一个大的市场最后可能不会超过 3-5 家的体量,我们希望成为大模型时代中基础设施能力的供应者。”杨帆说。

需要注意的是:2021 年,商汤科技成功登录港交所,并同时提出了“一平台四支柱”的公司战略。实际上这个战略背后,就是商汤科技在 2019 年时所形成的上述判断。

所谓的“一平台四支柱”是指:

商汤科技的核心,还是要去做人工智能的基础底座,因为商汤科技有全体系链的优势,能够服务更多的人,让 AI 技术以更低的成本、更低的门槛、更高效率地进入到各个场景里。

此外,商汤科技也会不断去做一些大的产业赛道,包括智慧城市、智能汽车等等。但商汤科技也有边界,不会吞吃所有产业,而会选择把更多的场景,通过自身基础设施的能力去开放出来。

也就是说,商汤科技在 2021 年时提出来的“一平台四支柱”中的一平台,就是指在商汤自身理念不断发展的大背景下应运而生的商汤大装置 SenseCore。

需要注意的是:早在 2019 年时,商汤科技就已经推出了 10 亿参数量规模的视觉模型。彼时,商汤科技使用了上千张 GPU 卡进行单任务训练。并在过去两年里,还训练了百亿参数规模的超大视觉模型。此后的今年 3 月,商汤科技又推出并开源了多模态多任务通用大模型书生(INTERN)2.5,具有 30 亿参数。

紧接着 6 月 7 日高考开考,商汤科技联合上海 AI 实验室、香港中文大学、复旦大学及上海交通大学发布了千亿级参数大语言模型“书生·浦语”(InternLM)。

“书生·浦语”具有 1040 亿参数,是在包含 1.6 万亿 token 的多语种高质量数据集上训练而成。

上述联合团队选取了 20 多项评测对“书生·浦语”进行检验,其中包含有全球最具影响力的四个综合性考试评测集:

由伯克利加州大学等高校构建的多任务考试评测集 MMLU;微软研究院推出的学科考试评测集 AGIEval(含中国高考、司法考试及美国 SAT、LSAT、GRE 和 GMAT 等);由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集 C-Eval;由复旦大学研究团队构建的高考题目评测集 Gaokao;

随后,联合团队对“书生·浦语”、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 进行了全面的测试,针对上述四个评测集的成绩对比如下图(满分 100 分):

测评结果显示:“书生·浦语”不仅已经显著超越 GLM-130B 和 LLaMA-65B 等学术开源模型,还在 AGIEval、C-Eval 以及 Gaokao 等多个综合性考试中领先于 ChatGPT;在以美国考试为主的 MMLU 上实现与 ChatGPT 持平。

而训练上述模型的基础,包括商汤在今年 4 月推出的大模型体系“日日新”,均得益于商汤大装置 SenseCore 的支撑。

根据商汤科技和我透露的数据:商汤大装置 SenseCore 共有 27000 块的 GPU 芯片卡,可以输出 5.0 exaFLOPS 的总算力,是目前亚洲最大的智能计算平台之一,站到了与 BAT 同台竞争的位置上。

但这也给商汤科技带来了巨大的成本支出。

根据商汤科技的财报:2018 年—2022 年间,其研发费用率从 45.9% 飙升到了 105%。

不过,砸下去的天文数字也变成了商汤在这一轮国内 AI 大模型竞争中的“算力优势”。

“目前行业里普遍认为,算力就是基础设施。但实际上,人工智能的基础设施是指算力、数据、算法(包括基础算法和算法相关的工具)三位一体的东西。”杨帆指出。

也就是说:当我们提到算力之争时,这里的算力,其实不仅仅是指硬件的资源,还包括上面一整套的基础软件体系;数据,也不仅是指数据本身的积累,还包括处理数据的能力、整合数据的能力、使用数据的 know-how 等等。

而谁如果能把这三者的整合能力提供好,能够提供更低的成本、更低的门槛,将决定整场竞争的成败。

而这也正是商汤大装置 SenseCore 的核心使命。

(二)杨帆还和我指出了商汤科技相较于国内外同类 LLM 公司所具有的差异化优势,在如下三个方面:

第一个是,商汤科技提供端到端的产品应用解决方案的能力。

这里一方面,商汤科技可以建设外部的应用生态,另一方面,商汤科技内部有大量的应用场景,可以快速去做闭环落地,这对于基础设施早期拼增长、抓客户的时候具有优势。

因为这样的过程,是商汤科技一个很强的窗口期。在这个阶段,商汤过去强于其他任何公司的端到端价值验证的能力会起到重要的作用。

“因为不管在任何场景下,人工智能还是一个很新的技术。第一,它在快速迭代;第二,它很不成熟。这会导致很多客户对 AI 的 一些基本概念、认知、价值、边界和局限性都没有很好的理解,甚至完全没有概念。要么过于乐观,要么过于悲观。所以最后就会发现,当 AI 真正要做产业落地时,大家必须要拿端到端的价值来说话。”杨帆指出。

因为说到底,客户其实很难辨识基础设施本身的厉害与否。一家厂商的定位如果就是提供基础设施,它其实很难自证价值。也正因为此,给客户提供完整的价值闭环就非常重要。

“也因此,AI 不是在最开始就提供基础三大件,而是一上来可能就要有行业解决方案包。另一个,也看到很多人会花很大代价去建整个应用生态。”杨帆说。

而第二个优势,就是商汤本是一家 AI 原生公司,这决定了从公司成立第一天起,商汤科技就在做 AI 大装置的基础设施。

这非常不同。举一个例子。

同样去讲一个 AI 的大装置,它底下可能也有数据中心,但传统建数据中心建互联网机房时,首先最重要的是带宽。而今天去建一个智能化的计算中心,首先是硬件服务器的配置。包括配什么类型的训练,配什么类型的推理,训练和推理之间是什么关系,以及集群内部的网络调度是什么等等。因为其使用模式、使用的 Python,可能就是重计算、轻用户之间的带宽交互。所以用户和使用场景不同,会导致从下到上整个技术的体系都跟原来不一样。

而在这方面,第一,商汤没有历史包袱。第二,商汤内部,其实早已经沉淀了大量的专家认知和工具:从芯片、服务器、基础软件、工具软件、算法生产到应用,对 AI 的各环节都能够更加理解,中间每一环节的问题挑战、困难在哪里,都非常清楚。

“我们今天要做的,其实无非就是把这些东西标准化成为一个产品和服务向外提供出来。”杨帆指出:“我认为这也是我们的一个核心优势,因为我们就是做这件事起家的,所以对每个环节的困难、挑战都更懂,积累的经验也更多。”

第三个优势,就是开源生态的建设。

根据杨帆的理解,大厂的开源生态其实做得并不好,原因是大厂搞生态核心搞的都是框架的生态,但从互联网 IT 行业到 AI 行业实际上已经发生了一个很大的变化。

“在互联网时,工具是核心的价值提供,所以大家都去做工具的开源,做工具的开源是互联网时代形成生态最重要的方面,而框架也是一种工具。但在 AI 时代,其实最重要的已经不是框架了,而是算法和模型,这就是为什么国外Hugging Face做得好的原因。”杨帆说。

需要注意的是:从 2017 年开始,商汤科技就没有开源过任何一个框架,其最核心开源的是一个算法仓库——海量算法 OpenMMLab。而这个算法目前在 Github 上达到的 Star 数比 Pytorch 还要高。

“在 AI 年代,真正的高价值蕴含都在模型里,你所谓的开源建设一个有效的生态,只有把核心价值的属性板块开源出去,才会更容易形成你的生态。”杨帆说。

(三)当谈到如何与资本更雄厚、资源更多的大厂竞争,比如,如何应对大厂们可能会利用一些低价行为来打市场的策略时,杨帆提供了下面的观点:

“其实基础设施都类似,最后拼的最重要优势一定是成本。但是这个成本,一定要关注它最后所谓的用户成本。“杨帆指出。

也就是说,用户想干一件事,最后他关注的其实是:我到底花了多少钱可以训练出一个 1,700 亿的、能达到某个指标的大语言模型。

“而在此过程中,其实不只是单独地给算力,因为算力今天以服务器计价。实际上当你软件做得足够好的时候,实际上就意味着别人要用 10 台服务器干的事,在商汤这里可能通过软件的优化之后,用 6 台服务器就做了。那么即便你的单价高,最后对用户来说,算总账时仍然划算。或者说,我们这里还有一些数据的储备,数据服务,一些工具化服务,我们把这些所有的服务加在一起,最后用户要达到他的目的,需要什么样的成本付出,最后大家比拼的其实是一个端到端综合成本的控制能力。”杨帆指出。

根据杨帆的观点,因为目前人工智能的智能计算市场还处于一个非常早期的阶段,但这也正是商汤科技的机会所在。

这里的逻辑是:通常,市场早期的技术发展还在快速迭代阶段,而当技术还不成熟时,如果你能在技术上领先,那么你其实有各种各样的方式来通过不同的渠道去综合优化成本。

而相比较,当一个市场技术已经进入相对的成熟期后,竞争将只能靠规模、靠一些供应链来压价和降低成本。

类似的一个案例是在公有云领域。

如国内公有云的发展比国外晚了 7-8 年,但今天国内的智能云则基本上与国外同步。这里存在着一个映射是,国内的公有云市场即便是早期阶段,但从技术的角度讲,它很多的技术已经相对成熟,已经过了依靠技术能力去快速获得一些成本优势的阶段。而如果回顾云服务市场的早期,甚至很多行业处于早期发展阶段的时候,技术优势都将在成本方面带来最终的很大价值。

更多科技行业趋势请搜公主号“硅发布”