大数据仍然是IT业界最活跃的领域之一,每周似乎都会涌现很多初创公司,提供新的技术用于收集、管理和分析大量结构化和非结构化数据。
根据市场研究公司Wikibon的研究,2015年大数据硬件、软件和专业服务的市场增长23.5%达到226亿美元,预计到2026年之前年复合增长率为14.4%达到922亿美元。
今年基于Hadoop平台的大数据项目似乎已经走过了概念验证的阶段,步入更加广泛的生产环境中,同时企业更加强调找到为经理们和员工们提供数据和分析能力的最佳方法。
下面就是在2016年上半年我们在大数据领域关注的10家很酷的初创公司。
Anodot
CEO: David Drai
Anodot创建于2014年,在11月走出隐身模式,推出了实时异常检测和操作智能技术,带有申请专利的机器学习算法的软件,会实现业务分析自动化,实时找出性能问题和商业机会。
Anodot的技术是针对电子商务网站、数字广告系统和物联网网络等用途,用于改善运行效率和收益最大化。
Anodot位于加州桑尼维尔和以色列Ra'anana在12月的A轮融资中获得300百万美元。
Aviso
CEO: K. V. Rao
Aviso开发的预测分析应用已经被销售机构用于改善销售预测流程。结合机器学习算法和投资组合管理技术,该软件帮助销售经理和销售代表优化交易、降低风险和精确销售分析--这是Aviso所谓的"总收入智能"。
位于加州门罗帕克的Aviso创建于2012年。该公司基于云的软件集成了一系列CRM应用,包括Salesforce.com、微软Dynamics、NetSuite、Oracle Sale Cloud等。
Cazena
CEO: Prat Moghe
Cazena开发的大数据即服务产品可以让企业把基于云的数据湖和数据集市结合起来,用于配置和优化大数据系统,包括那些构建在Hadoop、Spark和MPP SQL技术上的系统。
这家位于马萨诸塞州沃尔瑟姆的公司创建于2014年,它已经吸引了大量的关注和资金,因为首席执行官Moghe和董事会成员Jit Saxena、Jim Baum帮助创建了Netezza--一家先锋的数据仓库一体机开发商,在2010年被IBM以17亿美元收购。
5月,Cazena开始提供基于云的数据集市和基于微软Azure云平台的数据湖。
Confluent
CEO: Jay Kreps
实时流数据是大数据管理和分析过程中的一大挑战。有一项技术能够解决这个问题,那就是开源Apache Kafka讯息代理项目,它提供了高吞吐量、低延迟的软件,用于处理实时数据反馈。
Confluent是由Apache Kafka最初的开发者创建的,位于加州帕洛阿尔托,它开发了一款完整的围绕Kafka的实时数据平台,作为容错的、高可扩展的信息系统。该软件可以用于收集来自用户行为日志、股票报价系统、设备及其他用例的数据。
今年5月,Confluent宣布提供Confluent Platform 3.0,将Kafka Streams(向应用中增加流处理能力)以及Confluent Control Center(用于在企业机构上下操作Kafka)结合起来。
Koverse
CEO: Jon Matsuo
Koverse提供了一个"盒中数据湖"平台,并称这个平台能够收集大数据,并将这些数据更快速地投入生产中,其成本要低于现有技术和实践。
Koverse位于西雅图,创建于2012年,在2年前首次公布了该技术的早期版本,将Koverse Accumulo"分布式键值库"技术与Universal Indexing Engine结合起来。
该公司共同创始人Paul Brown(首席产品官)和Aaron Cordova(首席技术官)曾经是美国国家安全局的数据科学家,他们帮助开发了最早的Accumulo项目,将该机构的数据基础设施进行重新架构,从而更好地应对以外的数据分析情况。
MapD Technologies
CEO: Todd Mostak
MapD Technologies开发了一款大数据分析平台,并称可以查询大数据以及实现大数据可视化,速度要比其他系统快100倍。该软件利用大规模并行的商用GPU跨数十亿行数据集执行SQL查询,只需要几毫秒时间。该系统可配合自己的MapD Immerse数据可视化工具或者其他虚拟化工具如Tableau。
Mostak在哈佛大学的时候,因为花了数小时甚至数天时间等待计算机系统处理数千万条推文的模式--他因为正在Arab Spring上撰写一篇论文,所以需要做这项研究--之后,他就开发了这个大数据技术的原型。他创建了他自己的计算机集群,使用计算机游戏GPU卡,然后在麻省理工学院计算机科学及人工智能实验室研究该技术。
Mostak位于旧金山,创建于2013年,在3月发布了自己的商用产品。
Maana
CEO: Babur Ozden
Maana开发了一个数据搜索和发现平台Maana Knowledge Graph,其长处是收集来自多个系统或者"孤岛"的数据,并将其转换为运营洞察,可以被业务线应用所使用。该系统是构建在Apache Spark处理引擎上的。
Maana位于加州Palo Alto,创建于2012年,在2015年5月正式发布,被看作是可以很好地收集和分析由物联网网络生成的海量数据。
在2016年3月,Maana在B轮融资中获得2600万美元,其中很大一部分是来自于该公司的石油和天然气客户、以及工业客户包括壳牌、雪佛龙公司、沙特阿美公司、英特尔和通用电气公司。
Stytch
CEO: Mark Cunningham
Stytch在4月首次推出了它的端到端数据分析平台,提供了用于自助式数据准备、数据建模、数据发现、报告和仪表板的系统工具。Stytch得到了邓白氏(Dun & Bradstreet)的支持,Stytch系统的一个关键卖点就是连接到了邓白氏庞大的业务数据库。
Stytch公司位于温哥华,在2015年8月正式公布。创始人及首席执行官Cunningham从1992年就开始涉足商业智能行业,当时他的家族企业开始开发Crystal Report,一个早期的、非常成功的、基于Windows的报告工具。
ThoughtSpot
CEO: Ajeet Singh
ThoughtSpot的口号是"面向所有人的搜索分析",它有一个大胆的目标,就是不再需要复杂的商业智能软件。该公司的ThoughtSpot Relational Search Appliance结合了来自现有环境、云以及桌面的数据,让用户可以通过一个简单的搜索界面就访问这些数据。
ThoughtSpot位于加州Palo Alto,创建于2012年,在2014年10月发布了它的一体机产品。12月它发布了ThoughtSpot 3,有大约200项覆盖搜索、分析和可视化的新功能。
5月,ThoughtSpot在C轮融资中获得了5000万美元,令人印象深刻。
Wavefront
CEO: Pete Cittadini
Wavefront提供的是一款实时分析平台,企业可以使用这个平台来监控和管理IT系统的性能,从云服务、到应用、及网络。Wavefront使用在Google和Twitter开发的技术,帮助预测和防止系统宕机,帮助实时诊断IT问题的根本原因。
Wavefront位于加州Palo Alto,创建于2012年。4月,Wavefront将前Actuate首席执行官Cittadini招致麾下作为新任首席执行官。
好文章,需要你的鼓励
这项研究介绍了VisCoder,一个经过专门微调的大语言模型,用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集,结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中,VisCoder显著优于同等规模的开源模型,甚至在某些方面超越了GPT-4o-mini。研究还引入了自我调试评估模式,证明了反馈驱动学习对提高代码可执行性和视觉准确性的重要性。
这项研究提出了"适应再连续学习"(ACL)框架,一种创新的方法解决预训练模型在连续学习中的稳定性-可塑性困境。通过在学习新任务前先对模型进行适应性调整,ACL使模型既能更好地学习新知识(提高可塑性),又能保留已有知识(维持稳定性)。实验证明,该框架能显著提升各种连续学习方法的性能,为解决人工智能系统中的"灾难性遗忘"问题提供了有效途径。
这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题,提出了LEAF方法(Levenshtein高效对抗性微调)来增强文本编码器的稳健性。实验表明,LEAF显著提高了模型在面对文本扰动时的性能,在AG-News数据集上将对抗准确率从44.5%提升至63.3%。当集成到Stable Diffusion等文本到图像生成模型中时,LEAF显著提高了对抗噪声下的生成质量;在多模态检索任务中,它平均提高了10个百分点的召回率。此外,LEAF还增强了模型的可解释性,使文本嵌入的反演更加准确。
BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好界面,让用户能根据特定需求筛选评估数据。实验证明模型在不同领域的排名差异巨大,强调了定制化评估的重要性。该平台支持多语言扩展和领域特化,为研究人员和开发者提供了灵活评估大语言模型的强大工具。