科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道沃森也能DIY?打造你的专属超级计算机

沃森也能DIY?打造你的专属超级计算机

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

不断的进化机器人可谓数不胜数,是不是也让你渴望拥有一台沃森:能够回答你所有的问题,还可能征服世界的家伙,为什么不构建自己的沃森式问答系统呢?况且所需的基础部件还是可以找到现成的。

作者:存储时代(编译) 来源:Stor-age.com 2011年3月2日

关键字: 沃森 IaaS

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共2页)

成就沃森的不仅是运行Linux的集群,由IBM开发的DeepQA算法也功不可没。DeepQA栈的两个关键要素都是Apache软件基金提供的可用开放源码程序。

第一个是Apache Hadoop,这是由Doug Cutting在阅读Google后端基础架构之后创建的开发源码,分布在数据运算系统。Hadoop在2005年加入了Apache项目,在2008年左右成为可用系统。

DeepQA栈另一个关键要素是Apache UIMA(非结构化信息管理架构),这是IBM数据库专家在2005年创建的信息管理框架,以帮助他们处理非结构信息,比如文本、音频和视频流。UIMA代码执行语法分析文本的自然语言进程,帮助沃森理解“危险边缘”的线索。

IBM已经将UIMA功能嵌入到其销售的各种不同的系统项目中,第一个尝试的是OmniFind语义搜索引擎,IBM将其放入了DB2数据仓库。IBM已经提议将UIMA作为OASIS标准,还将进行开源,连同其用于管理非结构化数据的框架构建方式一起。UIMA具有用于Java 和 C++的框架,但毫无疑问,它也可被扩展至任何语言,无论你的沃森问答系统用哪种语言进行编码。

Gondek表示,IBM应用Prolog处理问题分析,所以沃森算法都是用C或 C++编写,尤其是进程速度非常重要的地方。而用于处理问题分析和可信度评估的算法是用Java编写。所以可能你就会想到使用RHEL-Jboss栈。

写到这里不得不提到DIY沃森将会遇到的问题:IBM的DeepQA团队为“教”沃森迎战“危险边缘”而编写的算法,这些算法由数百万行的代码组成。这就需要你和你的朋友花上好几个星期来完成。但是,如果你真能实现该算法,你就能创办一家深度分析公司,然后等着惠普或者微软找上门吧。

Gondek也有些建议可以帮助你构造一台沃森:首先,不要将那些可以在网上找到的东西塞到设备中。在建造沃森的时候,IBM的研究人员发现权威文本,比如牛津英语词典、巴氏常用妙语辞典、维基百科及各种不同的百科全书是最适合参加“危险边缘”的数据集,你会更愿意要精确的数据,而不是过多无相关性的文本,系统可以专注于大量的文本找到答案。

举例来说,你不会放入大白鲸这个词汇,而会用许多描述大白鲸的权威文本替代,并挑选出重要的章节。事实证明,为参加“危险边缘”沃森准备了2亿页内容,这相当于一百万本书。

Gondek还提供了另外一个关键点:要专注于问题分析算法。在任何句子中找出关键词,省略干扰信息,不仅能快速得到答案,还有助于提出正确答案。

以上两点正是沃森参加“危险边缘”后所总结的重要经验,希望它们能够帮助你建造属于你自己的“沃森”。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章