从百度的“反恐24小时”到创立StarRocks,镜舟科技CEO孙文现的职业生涯始于百度,一个大数据工程师“苦逼”的起点。
镜舟科技CEO 孙文现
萌芽:StarRocks从“痛苦”中诞生
当时,时任百度高级研发经理的孙文现正参与开发统计系统——“福尔摩斯”,为广告主提供效果监测。那时,“福尔摩斯”的前台采用Apache+PHP的配置环境,后台则搭载MySQL数据库。
而面对着日益增长的日志量和数据量,当时“Apache+PHP”后端搭配MySQL数据库的方式,已难以招架大规模的数据挑战。这让孙文现和他的团队陷入到紧张的数据恢复工作中,最后甚至演变到每周迎接一次的“反恐24小时”行动。
想起那段“痛苦”的经历,孙文现的思绪回到了那些年“凌晨三点”的加班日常。他回忆说:“凌晨三点是跑批任务的关键时刻,也是我们压力最大的时候。因为凌晨三点之前要把所有数据全部跑出来,否则一旦数据丢失就会引起广告主投诉。”
那段“日常”,让孙文现意识到,传统的MySQL数据库已经无法应对日益复杂的数据处理需求。这时,一个更深远的方案开始在他脑海中初具雏形——把后台的MySQL改造成标准的OLAP(联机分析处理)结构,并最终发展成MPP(大规模并行处理)结构。这也是后来孙文现创建StarRocks的主要指导逻辑。
于是,为了把这个想法变为现实,2014年,孙文现决定离开百度,先后从创建智云科技(AbleCLOUD)担任COO开始,到金山云金融事业部销售总经理和云计算产品中心副总经理。这些经历加深了他对大数据平台的理解,也为他后来创建镜舟科技和StarRocks积累了宝贵的经验和洞察。
终于,2022年随着业界一声“炸雷”响起,一款基于StarRocks由具备水平在线扩缩容,金融级高可用,兼容 MySQL 5.7 协议和 MySQL生态,同时提供全面向量化引擎与多种数据源联邦查询等重要特性的极速统一的Lakehouse产品——“镜舟数据库”横空出世,镜舟科技也因这款自研产品,开始在业界声名鹊起。
回忆起这些年的职业生涯,孙文现感慨道:“我的职业生涯和我目前做的事情完全匹配,这或许就叫‘人事合一’吧。”
崛起:缓解企业数字化“阵痛”
从建立到如今,短短不到两年时间,镜舟科技营收规模以每年超过两倍的速度增长,产品应用于金融、零售、制造、游戏等各行业头部企业,基于StarRocks打造的企业级产品经历了近百次POC,成功率达到90%以上。目前,已有超过300家市值10亿美金的企业使用StarRocks。
至于为何镜舟科技的“扩张”速度如此惊人,孙文现思索良久后回答:“或许是因为我当年的经历,与当下企业数字化转型初期所经历的“阵痛”恰巧吻合,所以镜舟数据库才能更好的贴合客户需求。
当孙文现重新浏览数字化转型“新旧交汇”的时代轨迹。走进温州和东莞的老旧鞋厂,亲眼目睹了从传统手工到数字化的跃迁。又研究了“奈雪的茶”和“瑞幸”的成功营销帮助公司转危为安的案例.....孙文现意识到,数字化转型不仅仅是技术的升级,数字化工具也不仅是辅助工具,更是企业决策和分析的核心。而想要缓解“阵痛”,则将经历企业数字化转型两个关键阶段时关注几个重点问题。
数字化升级阶段,是绝大多数企业当前关注的重点。这个阶段中,企业一方面要在大数据和数据分析领域实现智能化,实施“业财一体化”。“业财一体化”是企业决策和分析的核心,而在这其中,数据成为了决策的关键。这缘于“业财一体化”涉及的所有后台的人、财、物,包括员工薪资、人员绩效等分析等核心交易场景,而这些场景“至关重要、不容有失、不允许出错”。
另一方面,由于部分企业负责人对所需数据不明确,导致需求频繁变化,促使自助报表兴起。所以,企业的关注点应该放在验证特定想法的正确性,利用报表等工具实现明确的目标。
智能化改造阶段是数字化转型的关键一步。这一阶段的难点在于满足三个条件:足够大的数据量、强大的计算能力,以及低廉的计算成本。孙文现举例称,金融是他重点关注的行业,由于强监管的特点,使其成为数据量充足的典型例子。
“这些企业关注的重点,就是镜舟数据库目前最好的卖点”。孙文现如是说。
制衡:开源与商业化融合
除了产品的硬核实力,开源与商业化并重也是用户选择镜舟科技的重要原因之一。孙文现表示,与阿里云、腾讯、小红书、滴滴等互联网公司共同建设的StarRocks开源社区,为制胜场景的诞生提供了肥沃的土壤,各行各业、各种需求在社区中碰撞、交融,产生出StarRocks的制胜场景。
然而,许多数据企业往往重视商业化,却忽视的开源的作用。而镜舟科技的开源和商业化战略,在实用主义与梦想主义间形成了微妙平衡——“开源和商业化可以相互促进、相互融合,协同发展。”用孙文现的话说,“我们不做‘我花开后百花杀’的企业,同等对待开源用户和付费用户,采用相同的思维和模式来推动两者融合。就是希望能够推动产业链做更加繁荣。”
为了保持创新和用户需求之间的平衡。镜舟科技采用开源与商业化“双擎驱动”的战略。这种战略能够使让镜舟科技在获取资源的同时,不失创新的“风帆”。
不言而喻,以开源项目为核心的开源社区通过众多开发者参与,构建起一个开放创新的生态体系,能加速技术、产品和服务创新,对商业化的战略意义重大。而商业化也对开源社区的发展意义重大,商业化不仅是开源项目成功与否的重要衡量标准,也能反哺促进开源社区持续发展。
两年来,在“双擎驱动”的推进下,不仅加快了镜舟科技产品和服务的提供速度,同时随着产品和企业成熟度提升,镜舟科技的市场竞争力也不断增强。
进化:向着云原生和大模型
现在,在战略驱动下的镜舟科技,正致力于将镜舟数据库引领至新的高度。未来,镜舟科技将持续进化,朝着云原生方向继续迈进,同时在大模型时代发挥关键作用。
产品迭代方面,镜舟数据库下一步将推动实时分析链路进一步精简,通过ETL on lakehouse,all in one的作业模式,帮助企业低成本、高效率地发掘数据价值。StarRocks社区也将从大厂生产环境中持续吸收灵感和助力,给业界带来更多惊喜。
在发展方面,孙文现则期待道:“希望在2025年,镜舟科技能够通过采用订阅模式来实现营收的稳定增长,以及克服中国SaaS市场中单价下降带来的挑战。同时,未来将聚焦金融行业、新零售(新经济)、制造业以及互联网和游戏的国际扩展等行业。
而对于这些重点行业,孙文现认为,私有化大模型对金融和制造业等具备复杂供应链链的行业而言,具备巨大潜力,可有效避免潜在的“雪崩效应”。而StarRocks的最新框架实现了存储与计算的分离,引入了湖仓(Lakehouse)概念,结合了数据湖和数据仓库。其允许统一存储结构化和非结构化数据的技术优势,对于企业构建私有化大模型至关重要。
在谈及这一点时,孙文现眼中略显兴奋。他认为,未来或许是一个私有化大模型定义的时代,发展前景十分乐观。
而后,他眼神变得坚定,沉言道:“虽然在大模型时代,我们可能还不是主角,但作为开发者和算力提升者,我们仍将努力为发挥关键作用,为时代发展贡献力量。”
好文章,需要你的鼓励
智谱AI率先推出了 AutoGLM,试图打造一款能够理解、规划、执行,并最终实现“无人驾驶”操作系统的 AI Agent。
该处理器采用16nm工艺技术设计,拥有 48 个ARM Cortex-A75内核,六通道DDR4 3200 MHz 内存 - 每插槽高达 768 GB(每通道 128 GB)
谷歌DeepMind研究人员则直接把这项技术集成到AI Agent中开发了Talker-Reasoner框架,让其具备“快”、“慢”两种拟人化思考方式。
数据密集型工作负载的激增,导致计算系统需要处理的数据量大幅增加。这种不断拓展的数据环境,迫切需要具备更大容量和更高带宽的