鹅厂开搞“海绵宝宝”，面向大模型发布向量数据库，中国AI迎拐点

2023-07-07 16:05:02 来源：财经侦探社

ChatGPT要凉了？

作为史上用户量增长最快的应用程序，ChatGPT让无数人为之疯狂。

但是200天后，我们回头再看ChatGPT，发现它的访问量从1月份的环比增长率为131.6%下降到了5月份2.8%。

【资料图】

数据的背后，是一次业界焦点的大转移：从对 AIGC 大模型技术的狂热，转移到对商业化落地效果的审视。

而这次大转移让向量数据库这个新的数据库品类站上了风口浪尖，不仅给大模型应用的变革指了一条明路，也为国产化大模型提供了一次在落地阶段弯道超车的机会。

向量数据库出圈

GPT 展现出来了强大的智能水平，它的成功有很多因素，但在工程上关键的一步是：神经网络与大语言模型将一个语言问题转化为数学问题，并使用工程手段高效解决了这个数学问题。

对于AI来说，各种各样的知识与概念在内部都使用数学向量来存储表示输入输出。将词汇/文本/语句/段落/图片/音频各种对象转换为数学向量的这个过程被叫做嵌入（Embedding）。

例如 OpenAI 就使用 1536 维的浮点数向量空间。当你问 ChatGPT 一个问题时，输入的文本首先被编码转换成为一个数学向量，才能作为神经网络的输入。而神经网络的直接输出结果，也是一个向量，向量被重新解码为人类的自然语言或其他形式，再呈现到人类眼前。

但是只有计算是不够的，还有一个重要的部分是记忆。大模型本身可以视作人类公开数据集的一个压缩存储，这些知识通过训练被编码到了模型中，内化到了模型的权重参数里。而精确性的，长期性的，过程性的，大容量的外部记忆存储，就需要用到向量数据库了。

向量数据库通常被认为是大模型的“海马体”或者“记忆海绵”。目前的大模型都是预训练模型，对于训练截止日之后发生的事情一无所知。

第一是没有实时的数据，第二是缺乏私域数据或者企业数据，向量数据库可以通过存储最新信息或者企业数据有效弥补了这些不足，让大模型突破在时间和空间上的限制，加速大模型落地行业场景。

同时，通过向量数据的本地存储，还能够协助解决目前企业界最担忧的大模型泄露隐私的问题。

国内外科技大厂竞逐向量数据库

现阶段，全球大模型与应用发展的如火如荼，已经走到了产业落地的早期，业界真正关心的是业务效果。

在这种情况下，向量数据库成为玩家们的新擂台，最近腾讯云正式发布AI原生(AI Native)向量数据库Tencent Cloud VectorDB。该数据库能够被广泛应用于大模型的训练、推理和知识库补充等场景，是国内首个从接入层、计算层、到存储层提供全生命周期AI化的向量数据库。

据介绍，腾讯云向量数据库最高支持10亿级向量检索规模，延迟控制在毫秒级，相比传统单机插件式数据库检索规模提升10倍，同时具备百万级每秒查询(QPS)的峰值能力。

与此同时，全球最火的开源向量数据库项目 Milvus 在 Github 的标星已经突破 2 万，官方显示，目前 Milvus 已经拥有超过 1000+ 中大型企业用户。

作为 Milvus 的原厂，Zilliz 已经完成 1.13 亿美元融资，并全面启动商业化步伐，为大模型落地提供向量数据库全栈产品与服务。

其实除了Tencent Cloud VectorDB和 Milvus ，目前全球已有的向量数据库产品主要包括 Pinecone、Weaviate、Vespa 等。其中，超过一半的向量数据库具有云化部署的能力。

并且全球数据库市场规模仍处在高速成长期。根据前瞻产业研究院，预计到2026年，全球数据库市场规模将达到2086亿美元，2021-2026年复合增长率达到21.13%。其中，中国向量数据库市场空间或将达到253-949亿元。

根据中国信通院数据，预计到2025年，中国数据库市场规模为688亿元，2020-2025年复合增长率为23.4%，占全球数据库市场的比重约为6.14%。

尽管国内大模型的综合能力与GPT-4还有代差，但现在要拼模型能力，更要拼知识库的构建能力、模型与知识库的集成水平。

而在向量数据库ChatGPT + VectorDB + Prompt（CVP）架构中，哪怕仅使用GPT3.5或一些头部开源模型，其端到端效果也明显优于GPT-4，这也为国产化大模型提供了一次在落地阶段弯道超车的机会。

对现有玩家来说，大模型是一场艰苦的马拉松竞赛，但是挑战与机会并存，如今入场的每一家企业，都有可能成为技术处女地的拓荒者，在当下，谁能率先在赛道里抢到更多筹码，就非常关键了，或许中国人工智能就在这一团团迷雾中，正走过它崎岖而混沌的序章。

关键词：

责任编辑：宋璟

鹅厂开搞“海绵宝宝”，面向大模型发布向量数据库，中国AI迎拐点

相关新闻

鹅厂开搞“海绵宝宝”，面向大模型发布向量数据库，中国AI迎拐点

南京市中招投档控制线揭晓

高级别自动驾驶汽车发生交通事故谁担责？这份白皮书提建议

速腾雨刷怎么立起来图解（速腾雨刷怎么立起来）

大专学动漫设计好找工作吗？动漫课程推荐！

北京亦庄亮相全球最大半导体展集创北方持续为亦庄集成电路产业发展助力

山东德州发布大学生实习实践岗位

怎么看，怎么办——新华社五论中美关系

三只羊网络联合安徽省文投打造全国性农产品直播基地

习近平在江苏南京市考察调研

哈尔滨上榜！2023年全球人工智能最具创新力城市排名发布

市民“想静静”法规要管用

【民生调查局】“开电动轮椅上下班”，违规吗？

江苏省邗江区发布暴雨橙色预警

绘就一幅小康“全景图”

11th gen intel core i5-11260h（inteli5一11260h与i711400h哪个好）

知秋一叶是什么含意_知秋一叶是什么意思？

为了推动印度人用4G 亚洲首富旗下公司推出一款售价12美元的手机

中银证券给予捷顺科技买入评级，业绩复苏态势延续，AI赋能新业务高速增长

“物业第一股”彩生活正式复牌控股股东花样年还会远吗？

海新能科：将积极与相关部门协商尽快消除美方焦化事项的不确定性

天津竞价保证金缴付情况什么时候可以查询？

海南环岛高速黄竹互通往琼海方向一轿车着火，浓烟滚滚……

微视频 | 17名校大PK，谁才是yyds！首届大学生基金知识竞赛即将开播

中央气象台发布高温橙色预警华北黄淮局地再超40℃

罗湖区转学插班政策2023（公办+民办）

全球即时看！黄梅时节家家雨青草池塘处处蛙画面（黄梅时节家家雨青草池塘处处蛙）

莱诺·胡德：“未病先治”预见人类健康未来焦点信息

6月新能源品牌销量：理想破3万，长城冲进前四！-最新快讯

40℃！高温持续，预警升级！世界快资讯

朝阳市机关事业保险管理中心(对于朝阳市机关事业保险管理中心简单介绍)

沪指冲高回落跌0.53% AI概念股逆势反弹_消息

环球观焦点：严防！雨花区开展“多合一”场所与违规留宿集中整治月行动

依法治国不能等同于法律越多越好

天天速递！电动车的底让自己弄掉了