扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共2页)
成就沃森的不仅是运行Linux的集群,由IBM开发的DeepQA算法也功不可没。DeepQA栈的两个关键要素都是Apache软件基金提供的可用开放源码程序。
第一个是Apache Hadoop,这是由Doug Cutting在阅读Google后端基础架构之后创建的开发源码,分布在数据运算系统。Hadoop在2005年加入了Apache项目,在2008年左右成为可用系统。
DeepQA栈另一个关键要素是Apache UIMA(非结构化信息管理架构),这是IBM数据库专家在2005年创建的信息管理框架,以帮助他们处理非结构信息,比如文本、音频和视频流。UIMA代码执行语法分析文本的自然语言进程,帮助沃森理解“危险边缘”的线索。
IBM已经将UIMA功能嵌入到其销售的各种不同的系统项目中,第一个尝试的是OmniFind语义搜索引擎,IBM将其放入了DB2数据仓库。IBM已经提议将UIMA作为OASIS标准,还将进行开源,连同其用于管理非结构化数据的框架构建方式一起。UIMA具有用于Java 和 C++的框架,但毫无疑问,它也可被扩展至任何语言,无论你的沃森问答系统用哪种语言进行编码。
Gondek表示,IBM应用Prolog处理问题分析,所以沃森算法都是用C或 C++编写,尤其是进程速度非常重要的地方。而用于处理问题分析和可信度评估的算法是用Java编写。所以可能你就会想到使用RHEL-Jboss栈。
写到这里不得不提到DIY沃森将会遇到的问题:IBM的DeepQA团队为“教”沃森迎战“危险边缘”而编写的算法,这些算法由数百万行的代码组成。这就需要你和你的朋友花上好几个星期来完成。但是,如果你真能实现该算法,你就能创办一家深度分析公司,然后等着惠普或者微软找上门吧。
Gondek也有些建议可以帮助你构造一台沃森:首先,不要将那些可以在网上找到的东西塞到设备中。在建造沃森的时候,IBM的研究人员发现权威文本,比如牛津英语词典、巴氏常用妙语辞典、维基百科及各种不同的百科全书是最适合参加“危险边缘”的数据集,你会更愿意要精确的数据,而不是过多无相关性的文本,系统可以专注于大量的文本找到答案。
举例来说,你不会放入大白鲸这个词汇,而会用许多描述大白鲸的权威文本替代,并挑选出重要的章节。事实证明,为参加“危险边缘”沃森准备了2亿页内容,这相当于一百万本书。
Gondek还提供了另外一个关键点:要专注于问题分析算法。在任何句子中找出关键词,省略干扰信息,不仅能快速得到答案,还有助于提出正确答案。
以上两点正是沃森参加“危险边缘”后所总结的重要经验,希望它们能够帮助你建造属于你自己的“沃森”。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者