Databricks,一个并不算熟悉的名字,是大数据国度的后起之星。成立不够一年,但却阵容强大,创始人都是开源圈子里面的重要级人物,值得关注。从公司名Databricks似乎就能看出一些深意——data(数据)+bricks(金砖四国)。不知道,在数据国度里Databricks是否具有“金砖四国”的发展前景呢?
可以先从公司的创始背景谈起,打开Databricks官网,“We're working to revolutionize what you can do with big data“映入眼帘。其格外简约不能再简约,可以用清新的字眼来描述网站来看,这一行字相信解读为公司创立的最初想法和终极目标似乎不为过。
Databricks是由Apache Spark的创始人建立的,成立于2013年年中,公司重于研发尖端系统,以从大数据中获取价值。Databricks认为大数据仍存在很大部分尚未开发的机遇,这也就是他们所要做的,通过改革来寻找到底大数据可以帮助人们做些什么。
加州大学伯克利分校,摄于2013年
也许正是基于此背景,Databricks目前的阵容对于大数据领域来说有不少亮点。团队人员均是开源圈子内的重量级人物,他们都热衷于“增值开源软件”:任职CEO 的Ion Stoica是UC Berkeley计算机教授、AMPLab联合创始人,同时也是Conviva公司的联合创始人(位于后排右三);CTO Matei Zaharia 是Apache Spark的创作者,同时也是麻省理工学院计算机科学系的助理教授(位于后排左三);UC Berkeley计算机科学教授Scott Shenker。同时也是知名SDN公司Nicira的联合创始人及前CEO(位于后排右二);值得一提的是联合创始人辛湜先生(英文名Reynold Xin,新浪微博为@hashjoin)还是一名中国人,无疑会带给Databricks公司多一分的中国色彩,他同时也是Spark的核心成员(位于前排左二)。
对于这家新兴的大数据公司,最好奇的就是他所拥有的大数据产品到底是什么呢?可以这么说,如果将Databricks公司的产品说成是Spark社区,其实不如说Databricks主要服务于Spark。这一点我们从其团队的主要成员不难看出。按照辛湜先生在媒体访问中所说,Databricks的目标是从Spark开始,构建一系列更强大、更简单的大数据分析处理工具盒平台。
不错,从其对外公布的官方博客中,这一点也得到了印证。3月18日宣布Databricks“认证Spark”项目主要用于那些建立在Apache Spark平台顶部上的应用,其实就是确保被认证的应用与许多Spark发行的商业支持一起使用。Databricks CEO Ion Stoica表示在此次项目中,Databricks将处理与认证的Apache在各商业版本中的兼容性任务,并能够很快确定其初始设置的分派是否满足此条件。
这里,可以顺便一起回顾下Apache Spark,它是一个开源数据处理引擎,用于构建高效率的、易用的和复杂分析的Hadoop数据,最初是成立于2009年的加州大学伯克利分校(UC Berkeley)AMPLab,正式开源是在2010年。正如Apache Spark做到100%的开源,Databricks也依旧遵循此规则。目前Spark已经发展成为大数据领域最大的开发者社区,有超过来自30个组织的100多个贡献者。不得不说注入如此基因的Databricks,绝对会更“亲民”。
迄今为止,这家极尽低调的公司Databricks,可以用神秘的大数据公司来形容。但在其成立不到一年的时间内,还是获得了Andreessen Horowitz 1400万美元投资。Andreessen Horowitz曾先后投资了Groupon、Skype、Zynga、Foursquare和Facebook等著名的互联网公司,外媒BusinessInsider曾将他誉为硅谷最具权威的50个天使投资人之一。
同时,Databricks还有个同样在大数据领域不容小觑的合作伙伴。从去年(2013年)Hadoop World会议上,就爆出Cloudera决定提供Apache Spark的全企业级支持,这也就意味着Databricks将成为Cloudera的第一个合作伙伴。Cloudera最近也是新闻不断,刚斩获了1.6亿美元 的融资,上市消息不断传出。
合作方式主要是Databricks帮助Cloudera提供支持,虽然目前Databricks仅以类似OEM的关系获益,该协议仅限于扩展Apache Spark,不会发布任何商业版本的Databricks。但正如Cloudera公司联合创始人兼CTO Amr Awadallah所说,此次合作将是作为Cloudera所有感兴趣的客户创新的枢纽,无疑这将为这家新兴创业公司赢得业界内的信誉。
此外,Databricks对于中国市场也很是看重,从主要创始人多次参加相关活动足以看出。近期就有一个机会,期待的伙伴们或许可以亲临现场。本月19日Databricks受邀参加“2014中国Spark技术峰会”(Spark Summit China 2014),届时期待Databricks公司成员Andy Konwinski的发言。
温馨提示:想要快速了解Databricks的网友,可火速点击http://stor-age.zdnet.com.cn/special/big_data_Databricks
好文章,需要你的鼓励
谷歌DeepMind和伦敦大学学院研究发现,大语言模型在面对反驳时会迅速失去信心并改变答案,即使反驳是错误的。研究显示LLM既会对自己的答案过度自信,又对批评异常敏感,表现出与人类相似但又独特的认知偏差。这种行为对多轮对话AI系统构成威胁,最新信息可能对LLM推理产生不成比例的影响。
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
一加正式推出AI功能Plus Mind和Mind Space,将率先在一加13和13R上线。Plus Mind可保存、建议、存储和搜索屏幕内容,并将信息整理到Mind Space应用中。该功能可通过专用按键或手势激活,能自动创建日历条目并提供AI搜索功能。一加还计划推出三阶段AI战略,包括集成大语言模型和个人助手功能,同时将推出AI语音转录、通话助手和照片优化等工具。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。