机器之心编辑部
命运齿轮转动的开始,源于 2023 年的 3 月 23 日的 OpenAI 一次日常更新。
这一天,OpenAI ChatGPT 发布了一个名叫 chatgpt-retrieval-plugin 的插件功能。而在官方 plugin 给出的标准案例中,OpenAI 专门提到,向量数据库是大模型产品形成长期记忆一个必不可少的组件。
无独有偶,三天前的 NVIDIA GTC 2023 大会上,英伟达创始人黄仁勋也重点提及向量数据库,一家过去名不见经传的向量数据库创业公司 Zilliz 在此期间,被三次邀请上台演讲。向量数据库与大语言模型,成为这一年的 GTC 上,除芯片之外讨论度最高的关键词。
也是自这一天起,海内外的各大开源社区以及创投市场,所有向量数据库项目的关注度瞬间画出了一条陡峭的增长曲线。
老牌玩家 Zilliz 旗下 Milvus 的 GitHub 的 Star 在接下来的两年时间迅速从一万增长至三万。原本略显荒芜的赛道中,仅仅一个多月,就有 Pinecone,Weaviate 各种 “专用向量数据库” 如雨后春笋冒了出来,数十亿热钱被打到创业公司的户头。
烈火烹油,鲜花着锦,与热情一同狂奔而来的是粗放的管理:
谷歌开发专家兼 YouTube 频道 Fireship 的创建者 Jeff Delaney,在 0 收入、0 商业计划甚至 0 展示代码的情况下,就能凭借 Rektor 向量数据库初创项目将公司估值推升至 4.2 亿美元。明星创业公司公开承认产品只是在 ClickHouse 和 HNSWlib 基础上,加上了向量检索与 Python 封装,就推向市场。
二级市场,哪怕传统的数据库运维公司,只要放出一个正在研发向量数据库的消息,就立刻在被转化为股票走势中连续的 20cm 涨停。甚至有大厂,从立项到完成产品化仅用时三个月不到,就推出了自研的向量数据库产品。
那时,所有人都相信,每个时代都有自己的代表性基础设施:如果工业革命时期的水电煤;信息时代的 IOE+wintel;手机时代是高通 + 安卓 + Snowflake,那么到了 AI 时代,为什么不会是 GPU + 大模型 + 向量数据库?
手握向量数据库的源代码,排入的是通往 AI 时代千亿市值的繁华梦之队。
却唯独忘记了,残暴的欢愉终将以残暴收尾,就如同历史上反复上演的数据库战争一般 —— 在一个极具规模效应的市场里,二八原则早已为所有玩家的未来写下结局的注脚。
一、一个新的千亿蓝海市场
在理解市场对向量数据库的狂热之前,我们需要先对其概念及其与大模型的关系,做一个清楚的阐释。
所谓向量数据库,顾名思义,用户存储、管理向量的数据库。与之并列的概念,则是甲骨文、MySQL 为代表的传统关系型数据库,以及 Web 2.0 时期兴起的 PostgreSQL、MongoDB 等为代表的 NoSQL 数据库。
与后两者相比,向量数据库更擅长存储、管理的数据类型,是我们常见的图片,视频,音频,文档等无法用表格(结构化方式)进行精确描述的非结构化数据。
在传统数据库里,我们对数据的管理和查找,类似于常见的 Excel,主要依靠对数据进行分门别类后,进行精确查找与运算,比如在超市货架中找到所有的 “巧克力”,非常的容易。但如果要找到具有某一类型特征的商品,比如 “可以快速补充血糖的商品”,那么基于关键词的精准搜索就帮不上忙了。
而向量数据库对数据的存储与管理,是基于其 “特征” 的相似度,比如一张巧克力的照片,经过 AI 模型对其进行特征提取,存储在向量数据库中,就会变成一系列独特的如 “高脂肪”“零食”“高糖”“褐色”“原产中南美洲” 等 “特征码”,进而响应 “补充血糖” 这样的特征检索需求。
也是因此,与传统的数据库相比,向量数据库与时下大火的大模型的关系也更为密切。
一个典型的应用方向是 RAG。
RAG,全称 Retrieval-Augmented Generation,中文可以理解为 “检索增强生成”,一般被广泛用于垂类知识库的构建,用以解决大模型的幻觉、垂类知识缺乏,以及知识动态更新的困境。
过去几年中,ChatGPT 为代表,大模型的出现让人工智能的通识水平以及推理能力有了飞跃性的提升。然而大模型最大的缺陷在于,缺乏专业领域知识以及长期记忆,并且容易出现幻觉。因此,我们经常可以看到大模型可以写复杂的程序,却被小学生奥数题难倒,再比如,一些大模型在学习了错误、“有毒” 的数据素材后,会分不清 “南唐” 与 “唐朝”,也会对李白的作品有哪些等问题张冠李戴。
与此同时,在金融等领域,我们通常需要最新的一手数据与知识进行分析,然而大模型在训练完成后,所拥有的知识就已经被固定,缺乏对行情为代表的知识与信息的动态补充能力。
通过向量数据库,企业可以将自身的垂类知识、企业专属知识等内容以 RAG 模式接入大模型,进而使其迅速掌握医药、法律、汽车等专业领域的知识之外,也能够实时进行知识的动态更新。
也是因此,大模型撬动市场对向量数据库的需求;向量数据库成为大模型通往智能之路的催化剂。市场就像滚雪球一样,在这个永动机式的扩张中越变越大。
但向量数据库的潜力远不止于此,大模型之外,个性化多模态内容搜索、推荐系统、精准营销、风控、欺诈检测、网络安全、自动驾驶、虚拟药物筛选同样也是向量数据库应用的核心场景。
下游应用的爆发带来了市场规模的进一步扩张:DB-Engines 数据显示,过去三年中,向量数据库一直是最受欢迎的数据库类别;Gartner 也预测,到 2026 年,30% 的企业将把向量数据库集成到其生成式 AI 模型中。
东北证券则对市场规模做了进一步测算,到 2030 年,全球向量数据库市场规模有望达到 500 亿美元,国内向量数据库市场规模有望超过 600 亿人民币。
历史已经告诉我们,一切风口之中,卖铲子才是最稳赚不赔的生意。
而向量数据库,就是大模型时代那把通往未来的金铲子。
二、向量数据库的江湖派系
如果不出意外,在这个赛道中,诞生千亿级别的企业,只是时间的早晚问题。
也正是在这种无法抗拒的诱惑下,市场随之迅速被划分为三大派别:
第一派玩家,独立的向量数据库创业公司。
其优势在于产品化,相比传统单机插件式数据库,向量数据库的检索规模可以提升十倍,支持百万级每秒查询(QPS)的峰值能力,同时延迟控制在毫秒级。
不足则是由于部分创业公司成立时间较短,缺乏各种数据库应该具备的基础性能力,例如:备份 / 恢复 / 高可用、批量更新 / 查询操作,事务 / ACID 等。此外,数据跨库带来的不同步也是个不容忽视的问题。比如如果用户在最原始的 PostgreSQL 中删除了某一条数据后,没有在向量数据库中实时同步,就会出现数据不一致,在生产环境中带来影响。
第二派,传统数据库玩家:如甲骨文 和 MongoDB 等,通过在传统数据库上加上一个具备向量检索能力的插件,从而使得传统数据库具备了向量的检索能力。
其优势在于数据不再需要在多个数据库之间同步、流转、处理。劣势则在传统数据库对海量非结构化数据的处理与支持存在一定的缺陷。比如建一个图库类应用,对 10 亿级别图片进行以图搜图,每张图片对应 128 维 Float 向量,需要的服务器内存将高达 480GB ,早已超出单机内存的极限。也就是说,百万以及千万级的数据中,传统数据库做加法,可以支撑一定的用户的需求,如果要做到亿级乃至 10 亿的数据规模,就需要专业的企业级分布式向量数据库了。
第三派玩家,云服务巨头。以 AWS 和 Microsoft 为代表,他们会在云服务的产品体系中,加入自研的向量数据库产品,优势在于 “买一赠一”、服务连续,缺点则在于云服务巨头们往往同时在做大模型、应用、云服务、向量数据库,既做裁判又做运动员的情况下,企业如何放心将私密的知识库放在云上,就成了新的问题。
至此,天下三分。传统数据库玩家在 noSQL、图数据库、关系型数据库、向量数据库多个战场四面开花;云服务巨头卡位流量端,让向量数据库成为整体业务上运中买一赠一中的赠品;而创业公司则以产品与压强式投入见长,在性能与服务上独领风骚。
三、向量数据库的中场战报
就在各大玩家还在低着头蒙眼狂奔同期,今年三季度,Forrester 已经通过一张 “Forrester Wave™ 向量数据库报告”,从产品能力、商业策略、市场表现三大方向的 25 大维度,为 14 家头部向量数据库排好了彼此的身家位次。
在 Forrester 的座次表中,进入领导者象限的,是第一派玩家 —— 向量数据库创业公司的代表 Zilliz;第二梯队,则以 Oracle、Microsoft、AWS、Pinecone 为代表;第三梯队,则是 MongoDB 等玩家。 整体来说,向量数据库创业公司的整体座次与入围数量最为占优;第二派传统数据库玩家以及第三派云服务巨头的表现各有千秋。 如何对不同玩家进行座次排布,Forrester 也表述的很直白:优秀的向量数据库供应商,应当具备以下能力:1、向量索引、元数据管理、向量检索和混合搜索等各种完整的向量数据库功能;2、完整的数据管理功能,包括向量存储、实时数据更新、数据集成、资源优化、数据完整性和一致性、并发控制和弹性可扩展性;3、用户友好的 UI 设计以及全面好用的 API;4、面对亿级数据规模的可扩展性,对 GPU 集成的支持。
以此次进入领导者象限的老牌玩家,也是向量数据库的开创者 Zilliz 为例。Forrester 对其作出的评价是,Zilliz 整体在管理海量向量数据方面表现突出。尤其在向量维度、向量索引、性能和可扩展性上表现出色,因此尤其适合那些优先考虑高性能和低延迟访问大量向量数据以用于高级 AI 应用程序的客户。 具体展开来说,在 Forrester 最关心的向量索引层面,以 Zilliz 为代表的原生向量数据库相比在普通数据库上做加法的产品,在基础的向量索引、元数据管理、向量检索和混合搜索方面,具备先天的优势。 完整的数据管理功能方面,Milvus 与 Zilliz Cloud 更是市面上为数不多可以提供(向量存储、实时数据更新、数据集成、资源优化、数据完整性和一致性、并发控制和弹性可扩展性)等功能的产品,与之形成鲜明对比的是部分市面上宣传的向量数据库产品,在相当长一段时间里,连最基本的备份恢复功能都不具备。 UI 与 API 等用户使用体验方面,Zilliz Cloud 可以提供开箱即用的向量数据库服务。 可扩展性上,Milvus 能够处理数百万乃至数十亿级的向量数据,是最受欢迎的开源向量数据数据库之一;而 Zilliz Cloud 能为用户提供百亿级向量数据毫秒级检索能力。与此同时,GPU 集成上,GTC 2024 上,Zilliz 还与英伟达联手发布了全球首个 GPU 加速向量数据库,由英伟达 CUDA 加持,性能实现 50 倍提升。 产业侧,Zilliz 除了是 OpenAI 官方首批 plugin 合作的向量数据库之外,全球的客户与合作伙伴数量也已经超过万家,并在图片检索、视频分析、自然语言理解、推荐系统、定向广告、个性化搜索、智能客服、欺诈检测、网络安全和新药发现等领域实现落地。 总结来说,Milvus 与 Zilliz Cloud 是市面上为数不多,做到了向量管理等基础功能之外,能够对海量数据支持、完整数据库功能做好产品级支持的玩家。 而对另外两派玩家的点评,可以从其对 AWS 以及 Oracle 的点评中一窥 Forrester 的态度。 对于 Oracle,产品能力、商业策略上的优势不必多提,但报告开篇,Forrester 也直白指出,传统数据库在向量维度和相似性搜索方面存在局限性。 关于 AWS,Forrester 则认为其在向量维度、数据库管理、API 支持、数据安全性和向量搜索等方面颇有建树,而最大的不足则在于,这些服务仅限于 AWS 云。
没有人会不喜欢一个完整的生态,但是如果选择生态的代价是将最核心的数据资源与之绑定,那么决策的天平也会就此倾斜。 尾声一个被低估的市场 在向量数据库的割据暗流涌动之时,一个时间锁已经清晰出现在眼前。 历史上,围绕数据库发生的战争,这已经是第三次。 上世纪八十年代,以美国军方的需求为牵引,数据库的老牌玩家甲骨文就此在 IBM 的铜墙铁壁包围下诞生,使用关系型数据库处理结构化数据成为此后三十年间数据库产业的主流。 到了 2010 年前后,互联网的成熟,使得人类历史所产生的数据量飞速膨胀,与此同时,我们对数据的需求,也在关系型数据库的 “行列” 运算的基础上演变,存储、读取,高并发成为这一时期的典型特色,由此,非关系型数据库(简称 NoSQL)诞生,MongoDB 成为这一时期的代表性玩家。 再到 2022 年底,大模型技术成熟,传统的基于字段的精准搜索之外,基于向量的相似性搜索需求瞬间爆发,向量数据库一时之间炙手可热。过程中,一大批新的 “大卫” 开始向巨人歌利亚发起挑战,淘汰与玩家梯队也在两年间迅速产生阶段性成果。 为什么阶段性的胜出者会是 Zilliz 为代表创业公司? 答案很简单 —— 尊重市场。 尊重的第一层,是尊重时代的机遇。与过去的任何一次技术浪潮都不同,站在开源的肩膀上,大模型的诞生与普及,让全世界所有企业都站在了同一起跑线。也是因此,全球化成为了这一批企业的共同代名词 —— 在 Zilliz 成立之初,所有的新品与技术发布,是面向全球的,团队的构成也同样遍布中国、美国、欧洲、日本、新加坡全球各处。 尊重的第二层,是尊重客观的用户需求,以及非结构化数据的差异性和巨大潜力。面对用户的需求,Zilliz 既有在 GitHub 上 3W 星的开源项链数据库 Milvus,同样有主打开箱即用的 Zilliz Cloud 。敢于从 0 做起,构建全新的产品以及服务,而不是简单的成熟产品做加法。 这种尊重的第三层,也是最重要的一环则是坚持。作为最早一批向量数据库企业,Zilliz 早在大模型尚未成为显学的 2019 年,就敲下了全世界范围内向量数据库的第一行代码,即是市场的开创者,也是长期的布道者,这也为后来 Zilliz 登上英伟达与 OpenAI 的生态大船,埋下伏笔。
未来,谁会是下一个从大风大浪里走出来的 IOE,市场还需要时间验证,但天平已经在慢慢向长期主义选手倾斜。
© THE END 龙跃龙跃
暂无评论内容