硅谷101 153

E135｜大模型带火的下一个风口：向量数据库 (59:50)

发布时间: 2023-12-28 07:45:00

过去十年，产生了类似于Snowflake这样的基于云原生业务的SaaS巨头；在AI时代，向量数据库领域会不会诞生AI时代的“Snowflake”，一个新的历史性机会正在产生。这期节目我们邀请到了亚马逊云科技与向量数据库Zilliz来聊一聊AI Native的企业级应用。Zilliz成立于2017年，主要研发AI场景的向量数据库，在2019年开源了全球首个向量数据库产品Milvus，并且把这个产品捐赠给Linux基金会，在GitHub上获得了2.5万颗星，拥有超过5000家企业客户，目前累计融资超过1.13亿美元。本期节目是亚马逊云科技赞助播出的出海特辑的第三期，我们会联合出海企业的案例，探讨不同行业的出海策略与方法论。在这段访谈里，我们将分析大模型时代，为什么向量数据库尤其重要，到底什么是AI时代AI native的数据基础设施。作为出海特辑的案例之一，Zilliz也会分享他们出海遇到的挑战，以及开源社区与商业化的平衡。【主播】泓君，《硅谷101》创始人，播客主理人【嘉宾】栾小凡，Zilliz技术合伙人，Linux Foundation AI & Data 基金会技术咨询委员成员吴万涛，亚马逊云科技解决方案架构师【你将听到】 02:19 向量数据库与传统数据库的区别：基于关键词去匹配vs上下文与语义相似度的匹配 05:53 大模型时代，向量数据库为什么这么重要？ 07:47 非结构化数据占人类数据80%，从巨头没有盯上的领域启动 10:26 向量数据库的挑战与护城河：好的模型与算法、性能与推理成本 12:34应用场景：电商提高长尾搜索；企业私有数据提升精度 16:41 衡量向量准确度：99%的召回率 19:00 OpenAI并不是最好的Embeding模型，开发者需要自己去试 20:34 Zilliz的商业模式：从开源到基于云的商业化 23:28 当巨头跟创业公司竞争：把选择权交给用户 27:00 行业过于早期，云巨头入场正在帮助行业成长 28:57 未来应用：适合电商、医疗、法律等数据密集型应用 29:50 AI时代的安全隐私：合规、产品、应用三个层面 33:26 安全问题打脸：向量数据经过精心设计后，可能会还原用户信息 37:38 移位更加保护隐私，但却让准确性更难出海挑战 37:35 Zilliz全球业务分布：美国营收占整体收入70%以上 38:47 SaaS产业布局的全球化考量：受美国头部用户影响大 40:16 中美SAAS产品的使用态度区别 45:00 美国市场策略：HackerNews与亚马逊云科技Marketplace 开源社区 49:16 公司主导的开源项目，开源协议有可能被修改 51:17 公司主导与基金会主导，开源项目两种方式的思考 54:38 开源与商业化的代码考量：三层结构的差异化竞争 57:25 当公司发展方向与社区发生分歧，如何解决？【相关单集】 E133｜开源打法的秘诀与AI重塑的数据库行业 (https://sv101.fireside.fm/138) E130｜聊聊智能硬件出海的全球版图：大模型、新爆款与合规陷阱 (https://sv101.fireside.fm/135) 【后期】加菲【BGM】 Cold and Blue - Roy Edwin Williams Lazy Art - Martin Landstrom Norman - Boone River 【在这里找到我们】公众号：硅谷101 收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客海外用户：Apple Podcast｜Spotify｜TuneIn｜Google Podcast｜Amazon Music 联系我们：[email protected]

主持人有点尴尬，应该多做点功课
Feihong飞虹@小宇宙 (24-02-07 20:21,北京)
说了个啥啊..一句话可以说清楚的
Ragnar_3Umh@小宇宙 (24-01-25 07:01,英国)
小建议，音频处理的时候希望可以处理一下嘉宾的房间混响
XenonXue@小宇宙 (24-01-21 23:43,法国)
这两个嘉宾说的都是啥？说了半天连这个向量数据库用最通俗的语言都描述不出来，都是一些行话堆积。好的输出就是外行人也能有一点收获，也对这个东西感兴趣的。逻辑清晰不是每个人都具备的，还是请点女嘉宾吧，男的爱吹牛装资深，女性就更实事求是 10
嬴嬴嬴@小宇宙 (24-01-17 22:30,湖北)
- 听起来，我理解就是更广泛的模糊检索，增强主题的相关性搜索 2
  银河丸丸@小宇宙 (24-01-31 16:55,北京)
42:59 我也喜欢用slack
Jungle_Jt1E@小宇宙 (24-01-08 21:52,北京)
传统数据库的增删改查其实放在这儿主要就是查查要准要快其中“准”的 bar 我觉得在基础模型不在匹配算法 “快”要行数上来才有价值它更像是个 feature 而不是一个 product 云厂自己做个组件应该会是主流 B 端采购也更适合包在一整个 search service 里倒是移动端向量数据库产品可能有机会
DeepFM_小Y@小宇宙 (24-01-04 03:57,荷兰)
- 另外传统搜广推里更 practical 的是多路召回依赖单一的召回模式特别是在搜索场景里是很有局限性的所以向量存储和搜索更适合做为召回组件这就又回到了传统搜索服务的扩展上了比如 elastic search
  DeepFM_小Y@小宇宙 (24-01-04 06:07,荷兰)
向量数据库，想到高校在推的知识图谱，知识的向量数据库，印象深的点有开源！评价体系！下游公司进一步延伸拓展-在自己理解的基础上拓展(感觉自己有做了类似的事情，有*点视网膜效应了)说到这儿，觉得国内很多公司不愿意去做拓展，是不是？其实很多业务都像在外包，反正包出去你能把这个事情给我弄出来，先应付着就好了。具体了解不多。)
zz快醒醒@小宇宙 (24-01-02 23:46,福建)
非常好
梨衣@小宇宙 (24-01-02 18:30,湖北)
一位嘉宾一直在说车轱辘话，信息含量极低 2
RiceRug@小宇宙 (24-01-01 13:48,广东)
- 沈嘉宾吗？感觉解答得挺好的，有提升的感觉
  zz快醒醒@小宇宙 (24-01-02 23:42,福建)
00:11 2024第一个播客⁽⁽ଘ( ˙꒳˙ )ଓ⁾⁾ 1
RoyZ@小宇宙 (24-01-01 08:21,上海)
11:07 两个挑战
阿白_B4PM@小宇宙 (23-12-31 08:45,河北)
39:13 明星项目商业不一定成功
cleare@小宇宙 (23-12-30 11:36,四川)
40:47 提到国内用户对服务会picky 需要很快的响应时间or解决，美国用户希望自己去解决问题，研究去延伸这个东西。这是用户群体不一样吧？ 1
HD687740z@小宇宙 (23-12-29 14:02,河南)
07:39 mark
joker_6Wyd@小宇宙 (23-12-29 13:23,上海)
感谢主持人和嘉宾的分享，我用向量库也有一段时间了，但我发现向量库对于“非”的内容无法很好的给出答案，比如“请推荐一些热带水果，但不要榴莲”，它往往会返回榴莲，有什么好的方法可以解决这类问题吗 11
huhon@小宇宙 (23-12-29 11:08,上海)
- 这个特别有意思确实是我们在研究的一个重点 1
  luan_FfiA@小宇宙 (23-12-29 16:03,上海)
- 这是因为目前的多模态匹配粒度不够细，出现了这种token matching的现象。不光是非，任意形容词都会出现
  却东@小宇宙 (24-04-22 01:43,江苏)
向量数据库一直听很多人说，但是一直不太理解到底是个啥。今天的分享嘉宾介绍的很适合小白入门👍
AkuLiz@小宇宙 (23-12-29 11:06,浙江)
- 感觉跟知识图谱有点像
  zz快醒醒@小宇宙 (24-01-02 23:42,福建)
没听懂的我小板凳坐好了！
独步91@小宇宙 (23-12-29 09:25,浙江)
硅谷101的视频节目在哪看啊?
待风停雪落@小宇宙 (23-12-28 22:00,未知)
- B站、youtube上都有
  泓君Jane@小宇宙 (23-12-29 08:34,广东)
- 嗯，好的会去看，希望硅谷101要长长久久的做下去👍👍👍
  待风停雪落@小宇宙 (24-01-02 10:55,未知)
求两篇paper的具体名字，一篇是主播说的重复多少次可以让chatgpt吐出个人信息，一篇是嘉宾说的可以反编译向量数据库恢复原始数据。 1
OstraMio@小宇宙 (23-12-28 21:13,广东)
- Scalable Extraction of Training Data from (Production) Language Models https://arxiv.org/abs/2311.17035 3
  泓君Jane@小宇宙 (23-12-29 08:33,广东)
- 第二篇是什么呢？
  Ceres-js@小宇宙 (24-01-09 11:30,北京)
大模型其实有很多话题可聊每个角度都挺有意思的
good_luck@小宇宙 (23-12-28 19:12,浙江)
- 对，还有好几期各种角度的话题没放出来，都挺好玩的 1
  泓君Jane@小宇宙 (23-12-28 20:19,广东)
- 期待期待！！！！
  宅学研究员波比@小宇宙 (23-12-29 09:40,天津)