大模型这一概念已经逐渐被大众所理解,市场也变得更加理性,但全球的大厂和创业者仍在积极探索这一领域。Meta、华为、京东、科大讯飞、字节等公司都在不断推进大模型的研发工作。除了流量和资本红利,人们更加关注的是大模型给全行业和人类文明带来的重要影响。罗超所提到的信号,是这一领域长远价值的体现。
从更广泛的角度来看,大模型的诞生与AI技术的发展密不可分。现在让我们深入了解大模型与AI之间的联系,探索这一领域未来的发展前景。
随着OpenAI的ChatGPT取得巨大成功,大模型的训练成果逐渐受到大众关注。创始人Sam Altman曾表示,对于AI对人类社会的影响,人们往往低估了其复杂性。当人们觉得已经搞懂了AI时,其实可能并未真正理解;而当人们觉得AI难以捉摸时,那才说明真正理解了AI。
作为AI应用分支的大模型,其展现出的能力远超人们的预期。新一代AI将为人类提供更低门槛的使用方式,提高生产力或创作能力。那么,这种具有生产力提升的新一代AI是如何逐步发展而来的呢?
早期的AI概念由图灵于上世纪提出,而冯·诺依曼在同一时期提出了电子计算机通用架构,这可视为现代AI的雏形。这一架构沿用了近七十年。1997年,IBM的深蓝机器人战胜国际象棋冠军卡斯帕罗夫,引发全球轰动。然而,当时的AI是基于逻辑的,即根据预设的逻辑法则进行检索和推演。机器并不具备自主学习能力,且人类可输入的逻辑法则有限。
随后,机器学习和深度学习概念出现,但主要停留在研究层面。在爆发之前,业内经历了多个关键节点。例如2006年,英伟达推出的CUDA软件降低了GPU应用门槛;2009年,斯坦福的计算机科学家创建了ImageNet用于训练计算机视觉算法。
深度学习的真正爆发始于2012年。该年的关键事件是名为AlexNet的深度神经网络在大型视觉识别挑战赛上获得冠军,其图像识别准确率达到了84%。这意味着如今我们习以为常的图像搜索、看图识别等功能在很大程度上基于AlexNet的基础。回溯至2012年的《纽约时报》,主流媒体才刚开始惊叹于机器精准识别图片的能力。
自2012年之后,识别型AI如计算机视觉等一度备受瞩目,寄予厚望。但在2019年,AI行业的繁荣突然停止,AI融资额和初创企业数量大幅缩水。当时,识别型AI主要采用针对特定任务训练的小模型,难以解决更广泛的多个问题。这导致了应用时的问题:缺乏通用型AI,每个需求都需要定制不止一个AI,成本过高。
直到ChatGPT的出现,彻底改变了这一局面。与上一代产品不同,ChatGPT采用了更为严谨的态度来回答用户问题。这是由于当时的技术限制,无法为所有问题提供正确答案。为了掩盖模型在能力上的不足,产品形式成为了一种必要的选择。用户可能会将ChatGPT视为聪明的孩子,而大人对小孩总是更为宽容。这种语调使得用户感觉ChatGPT能够理解他们的意思,而这都源于之前技术的限制。
大模型概念的火爆源于人们体验到了其智能性。以ChatGPT为例,它展现出了推理能力,能够有条理地回答问题、纠正错误,这些都体现了其智力。与AlphaGo的表现不同,我们认为ChatGPT具备智力。
徐串是一位资深架构师,于2022年成立了一家专注于人工智能平台的研发的初创公司。他认为,在达到一定参数后,大模型已经具备了问答能力,而人类需要做的是激发这种能力。模型已经存储了大量知识,但人类的表达相对复杂。训练模型需要人类提供详细的指令,指导模型如何回答问题、如何分步骤进行、如何用思维链的方式进行思考等。
目前,真正开发一个大模型需要约10亿人民币的投入。训练过程中会遇到很多问题,如模型不收敛、训练中断等。因此,模型之间的差距主要在于时间积累。像谷歌和OpenAI这样的大公司之所以能够取得成功,是因为他们有足够的资金和人力来支撑模型的训练和技术革新。这一过程可能相当漫长,投入产出比也不确定。
要让机器能够处理复杂的文本、达到甚至超越人类智慧的水平,资金量、算法、算力和数据规模都至关重要。算力是其中最为关键的因素之一。大模型对训练算力需求非常高,例如ChatGPT整个训练过程的算力消耗折算成时间需要3640天。而算力的相关设备主要是GPU芯片。行业内有人估算,ChatGPT硬件需求的最低门槛是1万块英伟达的A100芯片,算力的硬件投资规模达到10亿人民币。
在各个细分行业中,由于数据风险问题,许多企业无法将数据用于通用大模型的训练。因此,这些企业所持有的私域数据具有极高的价值。以医疗公司为例,它们拥有大量的医疗数据和病例数据,这为它们开发医疗垂直大模型产品提供了机会。
对于初创团队而言,现在仍有许多机会。在移动互联网初期,也存在所谓的巨头,但只要创意新颖并能够抓住创业优势,团队仍然可以在自己的垂直领域取得成功。无论是开发To B的垂直应用还是积累资源以开发未来的To C爆款产品,可能性都存在。
对于To B领域的创业者,如果已有客户使用产品,他们需要更多地关注如何提升服务价值和客户留存率,并逐步提高客单价。在做好基本盘后,可以逐步渗透到更多客户中。在拉新和留存这两个维度上做好之后,这将形成一个正常的飞轮循环过程。如果产品尚未达到PMI(产品-市场匹配),即正在开发To B业务但尚未有人使用,那么需要花更多时间与客户交流,了解技术是否真正有帮助以及如何更好地产品化以便实际应用。
对于To C的发展,更倾向于应用驱动。以iPhone的Siri为例,它是一个与模型结合的自然场景。如果Siri与GPT-4等更高级的模型结合,将成为更好的助手或生活助理,更了解用户需求。应用级的AI或C端的AI与人的日常生活更紧密,因此应用级的创新会更多。
在B端,AI模型的落地创造价值还有很长的路要走。AI生成的文档可以替换一些纯粹的文书工作,但在未来它还有许多潜力可挖,例如提高决策质量。企业需要做出许多商业决策,而决策质量目前基于历史数据。但获取数据的过程涉及大量人工操作并有偏差。相比之下,AI的精确度更高。再比如通过AI简化流程,如公司内部的采购、销售和业务流程等。这些实际上都可以通过AI提高效率甚至部分取代人工操作。
在大模型的创新边界探索中,通用大模型与垂直大模型的问题仍无定论。有人认为通用模型可以胜任所有任务,也有人认为通用模型在专业领域表现不如专业模型。行业垂直模型因此具有价值。然而,也存在争议。如果通用模型足够出色,细分行业是否还有存在的价值?是否通用模型会挤压专业模型的市场?
尽管存在争议,大模型已经在人类历史上留下了深刻印记。从沉淀到爆发,它们无疑在许多方面产生了重大影响。
在行业内,“涌现”这个词被广泛用来描述机器在某个阶段突然展现出的强大能力。这个词汇并不新鲜,自然界中这种现象屡见不鲜——比如成千上万的蚂蚁搭建起跨越巨大缝隙的桥梁,小鸟迁徙时在空中形成的复杂队列,或者是更微观的,由无数个水分子与空气分子组成的飓风。研究者们受自然界中跨尺度的自组织现象启发,提出了“涌现”的概念。
面对机器涌现出的庞大能力,我们如何剔除噪音与泡沫,深入探索大模型背后的真正逻辑?罗超指出,AI是一个历经多次震荡反复的话题。历史上虽然有过很多相关预言,但随着时间推移,由于技术发展未达到预期,人们往往会感到失望。因此,在看待AI、大模型以及AIGC时,我们既要保持乐观和好奇心,也要具备耐心,透过短期的泡沫和噪音,看清其长期的发展趋势和价值。
堵俊平则强调了人才密度、数据和长期投入三个关键特质。他认为,经历了大模型浪潮还能生存下来的公司,必然具备这三方面的优势。这些公司拥有大量数据作为储备,有助于模型训练的精度调优。此外,大模型的探索过程并非一帆风顺,需要公司具备屡败屡战的气质和韧性。
徐串指出,当前市场上许多公司只是在追逐风口,但随着市场竞争加剧,最终可能只有少数几家最出色的公司能够脱颖而出。虽然ChatGPT的中文能力有待提升,但中国仍然有可能发展出自己的大模型技术。然而,考虑到高昂的投入成本,只有少数公司能够在这个领域取得平衡发展。
尽管面临成本压力,ChatGPT目前仍然无法仅靠自身收入维持运营,需要依赖微软的Office和Bing搜索弥补亏损。同样地,国内公司也面临类似的困境。为了确保大模型的日常投入能够得到弥补,许多公司可能会因为高成本而选择放弃这个领域。
然而,大模型技术的发展终究不会成为巨头的专属游戏,也不仅仅局限于英文语境中。无论前路如何模糊,仍然有无数的创业者愿意投身其中,还有无数科学家愿意为了那1%的创新可能性继续研发。当我们勇敢地探索创新与科技的边界时,向外再探索一步、再探索一步……我们有足够的理由相信,人类一定能够赋予机器更广阔的价值。
巨头是否会涉足与你相同的创新业务,这并非仅限于AI领域的问题。在移动互联网时代,甚至更早之前,当有人尝试开发一款新车时,人们同样会质疑通用汽车或福特是否会跟进。事实上,传统巨头始终在寻求新的机会和方向,因此新兴创业公司始终面临着来自大公司的竞争和挑战。
然而,问题的核心在于获胜的核心资源。对于那些致力于长期价值、使命驱动而非机会导向的创业者来说,现在无疑是创业的黄金时期。这样的创业者更能汇聚一批志同道合、有耐心的人才,共同投身于一个既能创造长期价值又能在短期内积累沉淀的事业。他们更有可能在竞争激烈的市场中脱颖而出,实现自己的创业梦想。
如有侵权,请联系删除