犹记得两年前,一家名叫Splunk的美国公司在纳斯达克上市,之所以令人印象深刻,是因为这是第一家主打“大数据”牌上市的公司。上市首日,其发行股价大涨109%,估值达到32.8亿美元。
Splunk的高调上市,在当时引发了投资者对“大数据(Big Data)”板块的热切关注。时隔两年,如今的Splunk怎么样了?在那之后,大数据领域的投资状况经历了怎样的变化?现在,Splunk已经正式进入中国,前不久,记者对Splunk亚太及日本地区副总裁刘文熙进行了一番深入采访。
Splunk与大数据
说起“大数据”早已不陌生,它是一种收集和分析庞大数据信息的能力,这些信息涉及到人类生活的各个方面。过去,企业使用数据的能力要么受制于数据库高昂的使用成本,要么受制于专业、难以配置的技术。而现在,Splunk希望能够以低廉的成本和简单的方式来分析数据。
机器语言是大数据中非常重要的一部分,也是增长最快的。Splunk的技术方案在于帮助IT部门监控并分析来自不同来源、设备或机器的数据,其中包括日志、性能指标、事件等等。
创建于2003年的Splunk总部位于美国旧金山,2006年发布第一款产品,在全球15个国家设有办事处,拥有1000多名员工。据刘文熙介绍,目前Splunk只在美国旧金山、西雅图和上海设有开发中心,而亚太区总部设在香港。
上市之后,截至今年Splunk在全球有超过7000个用户,分布在银行、电信以及一些大型企业,财富100强中超过一半是Splunk的客户,中国有超过70家企业客户。
在中国市场,Splunk的业务主要集中在电信、保险和银行业等,例如银联支付、民生保险、百联支付、国美电器、中国移动和中国电信等。“大数据才刚起步,我们进入中国也仅仅两年多时间,从一开始专注于重点行业,到现在已经覆盖对数据分析有需求的各行各业。”
刘文熙强调,从2013年到2014年Splunk中国市场的战略重点之一就是扩大行业覆盖面。“中国大数据人才很多,中国市场发展强劲,数据分析需求非常强大,我们会加大对中国市场的投入。”
对于中国用户使用数据分析的现状,他很乐观地表示:“不能为了分析而分析,必须要解决某一个具体的问题……在中国,很多用户在使用了数据分析之后,都非常愿意与其他用户分享结果,这是一个很好的亮点。”
成长与改变
在刚刚结束的最新财年会议上,Splunk公司首席执行官Godfrey Sullivan曾表示,因为企业使用大数据分析软件对核心IT和安全业务进行扩展,所以2014年将会是有意思的一年。“我认为2014年,就增长、业务分析和Web情报领域而言,将是令人激动的一年,因为Splunk Enterprise 6带来了更为简单的界面。”
刘文熙向记者介绍,Splunk推出最新版Splunk Enterprise 6数据分析软件,在用户界面上做了进一步完善,能够在同一个平台内把数据分析结果提供给企业里不同角色的用户,包括IT人员、市场人员、CTO或CIO等。
除此之外,Splunk已经正式入驻AWS云,由此推出的Splunk Cloud成为了Splunk Enterprise功能即服务版本。刘文熙解释说,现在Splunk可以作为服务运行或在AWS上运行,也可以在内部运行,用户无需涉及IT设备就可以获得数据分析带来的便利。
他认为,越来越多的数据被推送到云中,很多企业已经开始慢慢接受在云上得到分析即服务的模式。AWS和Splunk可能将大数据的使用案例扩展到核心IT业务以外。现在,大部分Splunk的收益来自IT监控和对技术设备的日志追踪。不过,Splunk也逐步用来满足企业的其他需求。
可以看出Splunk正在尝试着从一家部门级IT解决方案提供商成长为一家企业级数据平台提供商,转折点将围绕着如何扩大到更多领域以及企业内部的更多部门,今年将会有怎样的发展和改变值得期待。
投资与生态
无论是从广义的商业角度考虑,还是从零售业、医疗或金融等具体产业分析,将“大数据”产业资本化的可能性都足以让投资者群体感到异常兴奋。
两年前Splunk成功上市的时候,美国投资机构Greylock Partners分析师AsheemChandna曾说,多数纯粹的大数据公司距离IPO上市还需要数年的发展时间,但短期内针对小型大数据公司的合并和收购行为将愈演愈烈。“我们正处于大数据公司领域十年发展新机遇的开始阶段。”
德意志银行科技股资本市场运营总监Ted Tobiason指出:“Splunk的上市将会给大数据公司领域带来非常巨大的影响,你不可能忽视投资价值的存在。”
Splunk上市引发的轰动效应也许对风投机构加大向大数据领域投资力度起到了推波助澜的作用,数据分析和商业智能等与大数据有关的其他板块也将获得发展机会。
如今,Splunk一直在积极参与大数据合作伙伴圈子,并围绕自己的技术打造生态圈,与云计算、存储、网络、安全以及数据可视化等相关厂商建立合作,从一个侧面印证了“Splunk for Everyone”的口号。
刘文熙认为,今年是大数据发展比较稳定的一年,能拿出解决问题方案的公司才能够生存下来。他说:“Splunk希望在不同部门和不同领域都贡献,通过与不同技术公司联盟的方式,将他们的数据与Splunk平台对接。”
好文章,需要你的鼓励
这项研究介绍了VisCoder,一个经过专门微调的大语言模型,用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集,结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中,VisCoder显著优于同等规模的开源模型,甚至在某些方面超越了GPT-4o-mini。研究还引入了自我调试评估模式,证明了反馈驱动学习对提高代码可执行性和视觉准确性的重要性。
这项研究提出了"适应再连续学习"(ACL)框架,一种创新的方法解决预训练模型在连续学习中的稳定性-可塑性困境。通过在学习新任务前先对模型进行适应性调整,ACL使模型既能更好地学习新知识(提高可塑性),又能保留已有知识(维持稳定性)。实验证明,该框架能显著提升各种连续学习方法的性能,为解决人工智能系统中的"灾难性遗忘"问题提供了有效途径。
这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题,提出了LEAF方法(Levenshtein高效对抗性微调)来增强文本编码器的稳健性。实验表明,LEAF显著提高了模型在面对文本扰动时的性能,在AG-News数据集上将对抗准确率从44.5%提升至63.3%。当集成到Stable Diffusion等文本到图像生成模型中时,LEAF显著提高了对抗噪声下的生成质量;在多模态检索任务中,它平均提高了10个百分点的召回率。此外,LEAF还增强了模型的可解释性,使文本嵌入的反演更加准确。
BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好界面,让用户能根据特定需求筛选评估数据。实验证明模型在不同领域的排名差异巨大,强调了定制化评估的重要性。该平台支持多语言扩展和领域特化,为研究人员和开发者提供了灵活评估大语言模型的强大工具。