星爵:从硅谷回国创业,成立向量数据库公司 Zilliz,挑战非结构化数据处理难题

admin 2024-09-30 阅读:2

“如果外部环境的变化能让你改变方向,那么你就不太相信自己。改变方向只会让你迷失自我。” “两三年前,我们已经筹集了1.1亿美元,并获得了顶级投资。人民理财是中国基础软件领域融资最多的公司之一,但当时市场上几乎没有人相信我们。 ” 2017年,在数据领域工作了15年后,星爵观察到一个现象:大量的非盈利企业的结构化数据并没有得到有效的处理和利用。于是,他决定从硅谷回国创业,成立了矢量数据库公司“Zilliz”,但当时OpenAI刚刚成立两年,距离做大还需要五六年的时间。模型将开启新一轮的人工智能热潮,市场上几乎没有人相信它们。“在(创业的)最初五六年里,向量数据库基本上属于聪明人看不起、不愿意做的东西。做。”近日,星爵在接受澎湃新闻采访时回忆道。

_星客多创始人有多富_洛克王国星之路星之泉bgm

谢超,矢量数据库公司Zilliz创始人,绰号“星爵”。

直到2023年,创业之路迎来重要转折,ChatGPT将大型模型推向人工智能主流。 “与以前的模型相比,大模型更加依赖数据。它完全由数据驱动,数据变得更加重要。”

七年时间,矢量数据库作为AI的基础设施,从幕后走到台前,非共识变成共识。 “过去一年多,很多企业纷纷进军矢量数据库领域。一度定位为矢量数据库公司的数据库厂商有两三百家。有些人突然相信了一些他们不相信的事情。”两三个月前。”星爵说道。

科技的发展速度比许多人想象的要快,但保持坚定并不容易。从市场的暗淡时刻出发,一路走到光明时刻,在星爵看来是一种非常英雄般的坚持。 Zilliz成立时就定下了一条规则,新成员加入时,必须选择一个英雄的名字作为昵称。谢超,本名谢超,选择了漫威宇宙银河护卫队的英雄“星爵”。

大型模型只是应用场景之一

在互联网多年的发展过程中,结构化数据的处理占据了主流。所谓结构化数据是指使用预定义的、预期格式的数据。它的字段、存储、输入、查询、分析等都是比较固定的。典型代表是电商场景中的交易数据,其金额、购买信息等,都有严格的字段定义。

非结构化数据则恰恰相反。其结构不规则或不完整,没有预定义的数据模型,很难用数据库中的二维逻辑表来表示数据。常见的包括语音、视频、图片、文本等,一般认为这类非结构化数据比结构化数据大得多,占所有数据的80%,但难以处理或分析。

与市场上已经发展了20到30年的结构化数据处理工具相比,非结构化数据处理工具并不完善,往往需要大量的计算能力和存储资源投入。例如,在数百部电影中查找特定的图片,检索过程非常复杂且庞大。由于成本太高,很多非结构化数据的价值还没有得到充分的挖掘。

“进入人工智能时代后,机器可以代替人来处理这些非结构化数据。如果这些数据能够得到有效利用,那将是一个巨大的机会。” Zilliz 专注于矢量数据库,这是一种专为人工智能构建的非结构化数据处理。数据存储系统,用于处理非结构化数据的软件工具。复杂的非结构化数据一般需要通过AI模型转换为向量,然后存储在向量数据库中进行分析,以进一步挖掘其中蕴含的价值。

“事实上,大语言模型只是向量数据库的一种应用场景,而不是唯一的应用。从2018年到2022年,中国几乎所有主流科技公司都在使用我们的产品,特别是在互联网搜索和广告领域,尽管它们虽然看起来没有那么酷,但它们仍然是我们产品的重要应用场景。”星爵说道。

例如,用户在电商场景中搜索面包时,如果仅根据关键词进行搜索,则可能会忽略吐司、百吉饼、欧式面包等面包子类别。但从语义和向量维度来看,它们极其相似,基于向量的搜索更符合用户在现实场景中的需求。

向量数据库需要考虑如何对海量历史数据进行向量化,如何构建索引,过程中如何存储,以及如何平衡语义查询和精准查询。经过五年的打磨,Zilliz 的开源产品 Milvus 已成为全球最受欢迎的开源矢量数据库之一。基于 Milvus 的全托管矢量数据库云服务 Zilliz Cloud 也将于 2022 年 11 月正式发布商业版本,并已陆续实现全球五大云 19 个节点的全覆盖,成为第一家矢量数据库公司在全球范围内提供国内外多云服务。在不久前全球知名研究公司发布的Forrester Wave™矢量数据库报告中,Zilliz获得了领导者象限最高分,从矢量维度、矢量索引、性能、可扩展性等多个角度获得了专业认可。

但在星爵看来,这只是一个开始。算力、算法和数据是人工智能的三大技术支柱。 “如果算力是火箭的主体,那么算法就是控制系统,数据就是燃料。虽然每一轮计算机技术的革命都是从硬件开始,然后是算法的进步,但数据才是最核心、最有价值的资源。 “大模型为数据提供了良好的载体。同样,在大模型时代,数据也变得更加重要。

“AI在不同的发展阶段有不同的表现形式。比如五六年前,AI的表现可能还是传统的小型卷积神经网络模型。随后,Transformer的出现,再加上工业规律的存在,比如作为scalelaw,除了语言模型之外,还有视觉模型或者其他类型的模型,并且它们已经逐渐发展成为统一的多模态模型,不仅可以处理语言文本,还可以处理视频和音频。”

真正的“高光时刻”尚未到来

大模型的流行让矢量数据库火了,但星爵认为矢量数据库真正的“高光时刻”还没有到来。

目前人工智能领域的发展尚未达到真正的爆发阶段。 “过去6到8个月,AI领域一直处于爬坡阶段,虽然整体性能有所提升,但尚未达到理想水平。在技术层面,大型模型仍然面临瓶颈,而这瓶颈可能会持续三到三个月甚至更长时间,具体时间很难预测。”

大家都在寻找理想的应用载体,将AI与其他技术结合起来,创造更大的效益。星爵认为,当前人工智能的发展仍在寻找价值、创造新机会,市场需要寻找新的价值点。许多企业对人工智能的了解还不够。 “他们经常寻求帮助,但他们并不知道自己到底要解决什么问题。一些来找我们的客户甚至不明白这个行业是如何细分的,以及他们应该寻找什么样的供应商来获得什么样的产品。”问题”。

不过,他仍然看好中国人工智能市场的未来发展。 “虽然我们在中国市场经历了很多挑战,但我们仍然不愿意放弃这个市场。在AI应用层面,中国不会落后。中国企业在应用速度和执行力方面都具有优势。”在上一代移动革命中,中国企业在应用方面表现出色。”星爵相信,这种出色的表现将延续到AI时代。

尽管SaaS服务在中国市场一直面临收入问题,但在星爵看来,中国企业要想在未来几十年内取得更大的发展,SaaS企业服务的崛起是必然的。 “如果企业服务不能崛起,中国就很难参与世界顶级竞争。”

“真正的高光时刻应该是第一家营收超过10亿美元、估值100亿美元的公司出现的时候。”创造这一高光时刻的公司可能是像Zilliz这样的独立创新型公司。

伟大的机会往往是反共识的

矢量数据库流行之后,经常有人问星爵:“你为什么逃跑?你做对了什么?”

“伟大的机会往往是反共识的。”当大多数人都不看好一个方向的时候,正是创业者坚守信念的时候。星爵表示,自己最初选择创业是出于多年数据工作后的技术直觉。 “我在数据领域工作了很长时间,我知道现在的市场需求可以通过技术手段来满足。如果我没有长期从事数据库工作,可能无法说服工作的人他们自己认为这项技术已经达到了一个拐点。”

在创业之前,星爵已经在数据领域工作了近十五年。处理非结构化数据一直是他工作中的棘手问题。但深度学习技术的出现让他意识到正是一个重要的技术变量让处理非结构化数据的问题变得可解决。

“相信自己”被星爵认为是创业者必须具备的首要要素。 “很多人不敢采取行动,首先是害怕失败。其次是不相信自己。相信自己是一件非常困难的事情,需要高度相信自己的判断和直觉。”在矢量数据库大模型流行之后,很多从事传统数据库工作的人开始改变想法,从不相信到相信,但在星爵看来,“如果外部环境的变化可以让你改变方向,那就不行了”这并不意味着你真的相信自己。改变方向只会让你迷失自我。”

虽然我坚信目的地一定会到达,但是什么时候到达还不确定。在创业的过程中,星爵也遇到了融资困难,无法生存,所以他觉得理想主义对于企业家来说也是必不可少的。 “如果你想发展得更快,你可能需要追求短期利益,但只有你有能力、有理想、有长远眼光,才能更早进入一个市场,并坚守在这个领域。只有坚持不懈,克服困难才能取得成功。好的机会往往是反共识的。”Zilliz今天能够在细分领域占据领先地位。在星爵看来,这完全是因为“起步更早,吸引了更多优秀人才”。 “如果我们进入市场晚了,我们就没有机会了。”

评论(0)