每逢淘金热,最后的赢家都是卖铲人,而非淘金者。在近两年的大模型风口下,向量数据库就成了这把铲子。
随着大型模型的快速发展,向量数据库正成为企业高效利用大型模型、最大程度释放数据价值的关键工具。据IDC的调查数据显示,全球在人工智能技术和服务方面的支出预计将于2023年达到1540亿美元,并在2026年超过3000亿美元。其中,向量数据库为AI开发以及提升内容生成准确性提供了重要的技术支持。
在今年数据库领域所有的技术趋势中,向量数据库无疑成为了最受资本热捧的一个。随着5月份大模型厂商掀起一轮又一轮价格战,接连调低大模型API的价格,高性价比的大模型+向量数据库,在行业应用、企业市场又显现出了商业价值。
为什么向量数据库会随着大模型的发展而爆发?它又将给AI行业带来怎样的机会?
大型模型的发展历程
首先,我们需要明确大型模型中向量数据库的作用。
大型模型解决的是计算问题,而向量数据库则解决存储问题。这是从2023年初向量数据库兴起开始,至今为止行业内公认的观点。
人们经常将大型语言模型比作大脑,但这实际上是一个缺少颞叶、缺乏记忆并经常出现幻觉的大脑。为了应对这些问题,通常需要使用向量数据库。
现实生活中两个人进行对话时,通常需要经历三个步骤:首先,一方会提出一个话题作为开场;接着,另一方会检索自己的记忆,评估自己对该话题的了解程度,然后给出相应的回答;最后,双方会循环交流,直到对话结束。
为了实现这种交互过程,并在一对一或一对多的情况下持续成为日常,人工智能科学家提出了CVP结构,即“ChatGPT(代表大型模型的ChatGPT
)+ Vector Database(向量数据库)+ Prompt(提示词)”,分别负责计算机分析、记忆和引导的功能。
放到大型模型上,针对可能出现的错觉问题,可以将所需领域的专业知识存入向量数据库。当提示发生时,系统将自动从向量数据库中查找最相关的专业知识,与您的提示一起提交给大型模型,从而有效减少错觉的出现。记忆方面也是如此,可以选择将部分您与大型模型的聊天记录存入向量数据库。这是向量数据库近期变得热门的原因。
向量数据库和传统数据库的不同点之一是,传统的数据库只能处理计算机容易了解和处理的数据、字符串等结构化数据,通过点查和范围查进行精确匹配,输出只有符合查询条件和不符合条件的答案,而向量数据库处理的是各种人工智能应用产生的非结构化数据,通过近似查进行模糊匹配,输出的是概率上提供相对最符合条件的答案,而非精确的标准答案。
以OpenAI背后的GPT模型预训练所用的数据为例,GPT-3.5的“知识库”共包含3000亿单词的数据,汇聚了来自开源语料库、维基百科、各类图书与新闻报道、Reddit与Twitter平台文章等大量互联网文本数据。GPT-4
在此基础上体量更大,且为了支持多模态专门收集各类图像、视频素材,这其中非结构化数据应占有极大比重。
正如冰山效应所喻示的“大部分冰山其实是沉在水下的,只有小部分浮出水面”,现实世界中约80%的数据都是非结构化的,只有大约20%是结构化的。非结构化数据的结构复杂且难以处理,因此有效利用率远低于结构化数据。因此,建立面向非结构化数据的向量数据库成为了一项从零开始的挑战。
近年来,一些数据库厂商已经开始原生支持向量嵌入和向量搜索的功能,并提供了相应的向量索引和查询优化技术。这使得开发人员能够更方便地在数据库中存储和查询向量数据,而无需依赖额外的工具或库。
除了大型语言模型的推动之外,向量数据库在自身技术方面也取得了重大突破,尤其是在性能优化、数据处理能力和安全性方面。各数据库厂商和研究机构都在努力改进向量数据库的算法和架构,以提高其处理大规模数据的能力。
的崛起彻底改变了向量数据库的发展速度。2023年3月,在英伟达全球开发者大会上,CEO黄仁勋强调了向量数据库在构建专有大型语言模型方面的重要性。他指出:“向量数据库具有一个全新的重要用例,即用于大型语言模型,在文本生成过程中可用于检索领域特定事实或专有信息。”黄仁勋宣布英伟达将推出一个名为RAFT的新库,用于加速索引、数据加载和近邻检索。他还表示:“我们正在将RAFT的加速引入到Meta的AI向量相似性搜索FAISS、Milvus开源向量数据库以及Redis。”
在资本市场,近一年来向量数据库是当之无愧的“资本宠儿”,Qdrant、Chroma、Weaviate先后获得融资,成立短短几年的Pi
necone宣布1亿美元B轮融资,估值达到7.5亿美元。可见,无论从技术演进还是资本市场来看,向量数据库都是这两年最亮眼的技术。
向量数据库的商业化探索
在大模型兴起之前,传统数据库已经在不断尝试与人工智能结合,主要涉及以下几个方向:人工智能用于数据库、数据库用于人工智能、预测估算。随着大模型的兴起,可以看到在这些方向上,数据库与人工智能间的关联比以往任何时候都要密切。
在“AI for DB”方面,将人工智能技术整合到传统数据库中,使其具备更加智能化的能力。例如,通过采用先进的模型,数据库可以实现更高级的数据分析、智能搜索以及推荐功能等。人工智能技术的应用使得数据库能够更深入地理解和处理数据,从而提供更准确的查询结果和分析报告。
对于“数据库用于人工智能”方面,传统数据库可以为大型模型提供结构化数据和非结构化数据的高效存储和查询能力。由于大型模型通常需要处理大规模数据,传统数据库的可伸缩性和性能变得尤为重要。数据库可以通过整合查询和差异化存储等技术,提供快速的数据访问和处理能力,以满足大型模型对数据的高效需求。
此外,大规模模型的崛起还为数据库增加了预测估算的功能。大型模型能够通过学习历史数据和模式,对未来的趋势和结果进行预测和估算。传统数据库可以整合这些模型,实现对数据的预测分析。这使得数据库不仅能够提供对历史数据的查询和分析,还能够提供对未来数据的预测和估算结果,从而协助用户做出更准确的决策。
事实上,不仅是大型模型厂商,云计算厂商凭借在人工智能基础设施、商业生态、市场规模效应方面的已有优势,也开始聚焦向量数据库市场进行各种技术和商业化尝试,这些尝试或许会让向量数据库加速走向商业成功。
首先,多元化部署能力。垂直行业大模型,数据都是私有机密的,客户一般不愿意放到公有云上,这对一部分支持混合多云的云厂商是一大利好,通过私有部署、分布式、混合云等多种方案,打消行业客户将数据放到云端的现实疑虑。
其次,关于一体化人工智能(AI)能力的发展是至关重要的。向量数据库的迅猛发展是由人工智能的推动引起的。然而,在AI原生时代,数据工程面临着诸多复杂问题,例如检索效率。在处理大规模数据并行任务时,保持快速响应时间是一个挑战,需要优化索引结构和搜索算法。此外,系统稳定性在高负载下变得尤为重要,需要确保数据库系统具备高可用性和容错能力,以防止服务中断。此外,存储海量的向量数据也需要进一步优化成本效益比。目前,云服务提供商在AI能力方面取得了重大进展,从底层算力集群到Maas模型平台再到全栈工具链,都具备了一定的AI能力。通过技术协同创新,我们有望持续优化向量数据库的性能和成本。
第三,产业服务能力。各行业对人工智能与业务的结合热情高涨,但大多还处于尝试探索期,需要结合自身场景、人工智能应用、信息技术设施等多种因素试错并迭代。这个过程中,随叫随到、帮助客户及时解决问题的ToB服务能力,也是非常看重的。深耕产业的公有云,有望降低很多企业在人工智能技术革命中的机会成本。
从某种程度上而言,不管是向量数据库还是大型模型,总的来说,人们对它们的追求更多是出于一种焦虑,而不是真正的需求。而这种焦虑则根源于害怕被抛在后面。
而向量数据库的热潮,在一定程度上外化了人们的担忧。但这并不能否定向量数据库的实际意义,甚至更长期的意义。
虽然,目前向量数据库仍处于发展初期,但可以确定的是,向量数据库与大规模模型一定是捆绑关系。因此,未来其演进方向也一定随着大规模模型能力的演进而发生变化。
不可否认的是,向量数据库的未来有无尽的可能性,也有漫长而曲折的道路。依托于庞大的模型,向量数据库成为了资本追逐的焦点。然而,在未来的人工智能通用智能时代,向量数据库还有许多重要任务需要完成。