Databricks Inc. 已完成上个月宣布的巨额 100 亿美元融资轮。
该公司今天同时披露完成了 52.5 亿美元的新债务融资。摩根大通领投了这轮债务融资,巴克莱银行、花旗银行和其他金融机构参与其中。
Databricks 融资的消息最早在 11 月传出。当时预计公司将筹集"至少"50 亿美元。路透社在 12 月中旬报道称这个数字可能超过 95 亿美元,几天后,Databricks 确认正在进行 100 亿美元的 J 轮融资。
领投方 Thrive Capital 与超过半打其他机构投资者一起参与了这轮融资。Databricks 今天透露,卡塔尔投资局、淡马锡、麦格理资本和 Meta Platforms Inc. 也参与其中。Databricks 联合创始人兼首席执行官 Ali Ghodsi 告诉路透社,来自 Meta 的投资将加深两家公司在人工智能领域的合作,特别是在 Facebook 母公司的 Llama 系列大语言模型方面。
Databricks 提供一个广受欢迎的基于云的数据存储和分析平台。它采用数据湖仓架构,可以存储结构化、非结构化和半结构化数据。企业可以对存储在 Databricks 中的信息运行 SQL 查询,使用 AI 模型发现有用模式并执行其他分析任务。
该平台支持名为 ACID 的数据可靠性标准。它可以回滚未成功完成的数据修改,这意味着这些修改常常产生的错误信息会被删除。此外,ACID 可以防止同时进行的数据修改相互干扰。
2023 年,Databricks 以 13 亿美元收购了一家名为 MosaicML Inc. 的风投支持的 AI 初创公司。此后,该公司扩展了大量 AI 功能。Ghodsi 今天告诉路透社,数千名客户正在公司平台上运行 Llama 模型。
Databricks 提供的功能使企业能够使用存储在其平台中的数据对 AI 模型进行微调或定制。它还使用名为 DSPy 的开源工具来自动化提示词调优。这是一种机器学习技术,通过为 AI 模型提供如何处理用户提示的指令来提升其输出质量。
该公司已将 Meta 的一个 Llama 模型直接集成到其平台中。公司提供由 Llama 3.1 70B 驱动的预打包 SQL 函数或程序。客户可以使用这些功能来总结存储在 Databricks 中的信息、翻译信息并执行其他任务,而无需手动部署大语言模型。
Ghodsi 表示:"组织正在现代化其数据和 AI 基础设施,因为他们认识到生成式 AI 的巨大潜力。数据智能对于释放这种潜力和帮助企业实现业务目标至关重要。"
该公司将利用 100 亿美元融资轮的收益开发新的 AI 产品。此外,Databricks 计划进行收购并扩大其国际市场营销业务。部分资金将用于为现任和前任员工提供流动性。
新的融资使 Databricks 上市的紧迫性降低。在 11 月融资消息传出前不久,Ghodsi 表示公司最早将在 2025 年下半年上市。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。