扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:编译 来源:ZDNet存储频道 2013年6月3日
关键字: 大数据
毫无疑问,喜欢钻研族谱的爱好者们乐于翻阅美国人口普查报告、出生证明以及其它一些由Ancestry.com提供的亲属追溯信息。不过在向朋友或亲属展示人事档案时,细节的缺失往往令我们难于了解先人们的生活状态。
Ancestry.com网站的技术服务人员们意识到了这一点。目前他们正在全力汇总容量达4PB的资源库,其内容包括官方人事档案、用户提交信息以及由计算机生成的定制摘要信息,三者共同构成了用户前人的可用资讯。
作为本季度初才刚刚与少部分客户见面的新功能,Ancestry网站从“故事浏览”功能起步,与十分之一使用者共享这些来自过往的信息。公司产品执行副总裁Eric Shoup在最近的一次采访中指出,这项计划意在分析Ancestry网站上的全部使用情况,并可能在今年年底正式向全体用户推出。网站允许用户移动单一图像文档页面与编辑相关文档内容,旨在进一步提高新功能的互动特性。
运作机制
故事浏览功能基于Ancestry现有的成熟数据发掘工具,其中包括一部分手写记录内容。但有时候故事浏览只涉及一部分关键性信息,例如姓名及居住地等。客户可以在查看手写记录时滚动至对应描述处,通过点击相关内容列进一步了解尚未列出的资讯,例如查询对象的职业。
Ancestry网站正努力开发图文转换工具,借以将手写扫描图像转化为可资搜索的文本内容,并最终摆脱对手写记录的高度依赖。网站用这种方式添加了街道地址信息,并将陆续把更多内容也加入进来。随着Ancestry不断扩展其记录资源库,生活故事将得以逐渐充实、从而向用户展现出更加丰富多彩的历史世界。
为了能够根据多份文档中的大量信息汇总出搜索对象的生平摘要(如上图所示),Ancestry网站决定与创建于2010年的Narrative Science公司合作——后者专门提供设备可读副本的相关技术。这项技术最早被用于打理体育赛事以及上市公司的盈利报告等信息,但目前Narrative Science已经越来越多地把这项技术用于个人资讯处理。
根据Ancestry网站描述与背景服务小组首席开发者Reed McGrew的解释,Ancestry刚刚与Narrative Science开展合作时,后者还只能生成大批量数据。“他们擅长生成大量财务报告,但这并不是我们公司的主要关注范畴,”McGrew表示。“因为一旦信息规模过于庞大,处理速度会变得相当缓慢。”
然而就在短短几个月之后,Narrative Science公司带来了新的API,能够以更为精细的水平进行信息汇总。“通过对用户信息的逐一整理,他们的技术终于能够生成令人满意的生平回顾,”McGrew指出。
Ancestry网站深谙家谱信息服务供应的诀窍。该公司的众位编辑制定出标准化编辑或者说“规则”流程,用于指导数据如何转化为描述、描述又如何转化为可供阅读的内容,McGrew表示。有哪些具体标准?举例来说,“我们不会采用那些十岁以下即怀孕生子的信息,”他指出。“这类内容基本上属于输入失误。虽然偶尔也确实有此种情况发生,但其可能性非常之低,因此一般会将其作为失误进行处理。”
故事浏览模式下的前人信息以图片与生平摘要为载体(且可以随意缩放),而非散乱的结构化文本。在图片旁边,Ancestry还可以插入根据文档信息生成的资料简介。工程技术人员负责从资源库中提取信息汇总成资料系统,进而显示在网站界面当中。如果相关对象的记录信息过多,Ancestry会根据编辑规则从中筛选特定内容并将其整理成可供阅读的完整句段。用户可以对浏览器中显示的文档简介进行编辑与保存,并最终与他人分享。
共享绝非易事
Ancestry公司首席技术官Scott Sorensen表示,最大的挑战并非创建并存储那些由用户生成的新数据与页面。存储资源的成本越来越低,而且这一趋势仍将保持下去;精确处理手写记录也不再是什么技术难题。Sorensen告诉我们,大部分负责信息整理的工作人员都来自中国。“汉字字库比英文体系的字母表庞大得多,因此工作人员能够很熟练地输入这些记录内容。”
真正的难点在于确保服务本身的高度可用性、为数以百万计的用户提供正确的文档与文本内容并保证网站能在巨大的流量压力下保持正常运作。不过故事浏览功能的目标在于让更多使用者查看需要的内容并最终注册为正式用户,因此这类难题也正是网站人气高涨的证明。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者