至顶网›存储频道 ›沃森也能DIY？打造你的专属超级计算机

沃森也能DIY？打造你的专属超级计算机

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

不断的进化机器人可谓数不胜数，是不是也让你渴望拥有一台沃森：能够回答你所有的问题，还可能征服世界的家伙，为什么不构建自己的沃森式问答系统呢？况且所需的基础部件还是可以找到现成的。

作者：存储时代（编译）来源：Stor-age.com 2011年3月2日

成就沃森的不仅是运行Linux的集群，由IBM开发的DeepQA算法也功不可没。DeepQA栈的两个关键要素都是Apache软件基金提供的可用开放源码程序。

第一个是Apache Hadoop，这是由Doug Cutting在阅读Google后端基础架构之后创建的开发源码，分布在数据运算系统。Hadoop在2005年加入了Apache项目，在2008年左右成为可用系统。

DeepQA栈另一个关键要素是Apache UIMA（非结构化信息管理架构），这是IBM数据库专家在2005年创建的信息管理框架，以帮助他们处理非结构信息，比如文本、音频和视频流。UIMA代码执行语法分析文本的自然语言进程，帮助沃森理解“危险边缘”的线索。

IBM已经将UIMA功能嵌入到其销售的各种不同的系统项目中，第一个尝试的是OmniFind语义搜索引擎，IBM将其放入了DB2数据仓库。IBM已经提议将UIMA作为OASIS标准，还将进行开源，连同其用于管理非结构化数据的框架构建方式一起。UIMA具有用于Java 和 C++的框架，但毫无疑问，它也可被扩展至任何语言，无论你的沃森问答系统用哪种语言进行编码。

Gondek表示，IBM应用Prolog处理问题分析，所以沃森算法都是用C或 C++编写，尤其是进程速度非常重要的地方。而用于处理问题分析和可信度评估的算法是用Java编写。所以可能你就会想到使用RHEL-Jboss栈。

写到这里不得不提到DIY沃森将会遇到的问题：IBM的DeepQA团队为“教”沃森迎战“危险边缘”而编写的算法，这些算法由数百万行的代码组成。这就需要你和你的朋友花上好几个星期来完成。但是，如果你真能实现该算法，你就能创办一家深度分析公司，然后等着惠普或者微软找上门吧。

Gondek也有些建议可以帮助你构造一台沃森：首先，不要将那些可以在网上找到的东西塞到设备中。在建造沃森的时候，IBM的研究人员发现权威文本，比如牛津英语词典、巴氏常用妙语辞典、维基百科及各种不同的百科全书是最适合参加“危险边缘”的数据集，你会更愿意要精确的数据，而不是过多无相关性的文本，系统可以专注于大量的文本找到答案。

举例来说，你不会放入大白鲸这个词汇，而会用许多描述大白鲸的权威文本替代，并挑选出重要的章节。事实证明，为参加“危险边缘”沃森准备了2亿页内容，这相当于一百万本书。

Gondek还提供了另外一个关键点：要专注于问题分析算法。在任何句子中找出关键词，省略干扰信息，不仅能快速得到答案，还有助于提出正确答案。

以上两点正是沃森参加“危险边缘”后所总结的重要经验，希望它们能够帮助你建造属于你自己的“沃森”。

VIP专区

VIP用户

普通用户

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题

往期文章

沃森也能DIY？打造你的专属超级计算机

业界热点: