HDS公司已经公布了日立内容智能方案(Hitachi Content Intelligence,简称HCI),这款软件专门负责立足于多种结构化与非结构化数据孤岛进行搜索与内容读取,随后对其加以分析。
HDS公司指出,其可利用内容智能化方案解决输入数据井喷的问题
HCI能够从各孤岛当中提取数据并将其引入工作流,从而通过多种方式加以处理。HCI的用户亦需要经过验证,从而确保敏感内容只由相关人员进行查看,文档安全控制也因此得以保障。HDS方面指出,HCI能够跨越整体IT环境帮助企业创建一套标准且统一的搜索流程。
HDS公司指出,HCI可跨越异构式数据孤岛及不同位置以连接并聚合多种结构化数据。该公司宣称,HCI能够为全部企业数据提供自动化提取、分类、富集与组织功能。需要注意的是,其使用了“全部”一词,因此可以认为HCI能够访问企业内的一切数字化数据。这确实是一项了不起的成就。
HCI对现有公共应用程序编程接口(简称API)进行扩展,从而支持定制化数据连接、转换阶段或者构建新型应用。
其作为HDS公司对象存储产品组合(简称HCP)中的一部分,帮助这套整体方案实现文件同步与共享、云存储网关以及新的搜索与分析功能。HCI能够运行在物理或者虚拟服务器之上,亦可被托管于公有或者私有云当中。其可作为一组容器进行实例化,并作为一项自助式服务实体被交付给用户,同时提供对详尽查询与自然语言查询的支持能力。
另外,其还将为用户提供多种个性化结果。需要强调的是,它亦能够检测到旧有数据并将其导出至低成本在线归档服务之内。
总体而言,这是一项非常出色的批量内容智能化功能。单从公布内容来看,其极为强大且蕴含着无穷无尽的潜力空间。
针对HCI公告当中提到的“全部”数据以及其它一些内容,我们向日立数据系统公司新兴技术高级主管Scott Baker进行了求证。
邮件采访细节
HCI能够支持哪些多结构化数据孤岛?
Scott Baker内容智能软件所提供的数据连接器能够支持日立连接平台、日立Data Ingestor、HCP Anywhere、S3托管存储库以及文件系统(CIFS/NFS)。内容智能拥有完备的说明文档,包括一套包含示例的软件开发者工具包,合作伙伴与客户可利用其创建未直接提供的、指向各类数据存储库的连接。
其如何支持详尽查询与特设自然语言搜索?(即能否处理‘企业数据存储内与X射线相关的内容有哪些?’这样的查询问题?)
Scott Baker内容智能允许用户通过以下方式进行数据导航:基于特定方面导航,或者将同类数据划分为一个组别的能力。在您所提到的例子中,您可以在数据处理过程中使用元数据标签,从而将全部包含X射线内容的文件源进行标记。如此一来,用户即可快速选定该类别以查看与之相关的文档列表结果。
用户还可以将查询结果限定至特定属性或者范围之内。举例来说,显示一切来自日期1与日期2之间的包含X射线内容的文件,或者设定其它过滤选项。模式匹配或者数据分析机制亦可用于对文件内容进行分享。例如,用户可以找到全部与特定X射线定义数据相关的文件(在文件处理过程中使用这一模式),由此给出可识别信息。
特设查询亦可支持自然语言形式,而内容智能软件则会给出输入建议。相关结果将根据各文件与查询内容的匹配程度进行排序,并将匹配度最高的内容突出显著出来。多词查询实质上等同于“OR(或)”自然语言搜索(即‘什么’OR‘内容’OR‘做’……),但亦可使用绰号时将语义转换为“AND(和)”。
使用哪种搜索语言?
Scott Baker最终用户在查询或者导航以上列出的结果时,内容智能软件的索引引擎会使用SolrQuerySyntax进行处理,并借此返回与查询内容最为匹配的结果。这些结果可通过任意附加参数进行放大——例如增加值、相关性排序、排除某些文件或者将其列入黑名单等等。
其是如何自动提取、分类、富集并组织全部客户数据的?
Scott Baker在工作流创建及数据连接定义完成之后,所对接存储库内的任意发现数据都会通过工作流管道内的不同阶段进行处理。作为这些管道的组成部分,内容与元数据会被提取出来,内容会基于数据类型或者元数据值进行分类,软件采取一系列步骤进行数据标准化处理,其它元数据被添加进来,从而允许利用特定模式实现搜索(例如个人识别数据)等等。大家可以采取24种不同的处理步骤,分具体条件进行选择,其中包括内容分析、转换、富集、过滤、内存内提取以及必然提供的利用SDK创建定制化步骤等。这些工作流皆可立足于周期基础进行按需或者计划执行。
真的吗?可用于全部客户数据?您能否证明这一论断?
Scott Baker好的——这里肯定是有点创意发挥的成分在,但基本上答案是肯定的。要证明这一论点,我们需要探讨内容智能软件的可扩展性。如果大家需要一款连接器,但我们并未直接提供,那么用户可以自行创建。如果大家希望以某种默认选项中不具备的方式进行数据处理,亦可自由设计。另外,如果大家需要一套我们未直接提供的特定界面以查看结果,则可使用REST API进行数据渲染来达成目的。
这款软件会将生成的元数据存储在哪里?
Scott Baker具体取决于处理数据的预期目的。如果我们的目标是创建一套集中化索引且不影响数据源,而后全部操作皆由工作流执行,那么由此产生的元数据与提取内容会被存储在一套Solr索引当中。我们利用特定的Solr功能以平衡不同实例间的索引,从而确保搜索操作的性能表现并保护索引免于丢失。这意味着,大家也可以创建一套与进行数据探索或者发现活动的用户更为贴近的索引。
面向HCP与S3位置的数据连接器亦可对其执行相关“WRITE”操作——具体写入对象包括数据、元数据、自定义元数据、保留设置、保留持有权、执行权限类删除、执行权限类保留等。这是一种非常重要的使用方式,能够帮助用户利用内容智能软件以智能化方式实现数据迁移,并在将其写入新存储库时与全部自定义元数据相关联。
其会查看数据中的内容吗?
Scott Baker是的——内容智能软件可以执行表层内容识别、次表层(即文件标题)或者深度内容识别。在提取、转换、模式匹配、分析与加载方面,内容智能可在深层识别中使用文件的全部内容。其中包括从文件容器(pst、zip、tar、mbox等)内提取每个文档并进行独立处理。
公告内容指出,HCI将“最大程度降低数据无法访问、无法识别或者丢失的风险及泄露可能性,”这意味着并未完全消除这种风险。我的理解对吗?
Scott Baker没错——要完全消除这类风险意味着极高的自动化程度。在产品的成熟度方面,我们目前力图让用户意识到风险的存在,不过具体操作仍由用户决定,因此其可采取适当步骤以降低风险级别。当然也有例外,假如我利用数据连接器对接HCP或者S3作为数据迁移手段,从而确保不使用那些隐藏且极少访问的存储库,那么就能够利用高水平自动化机制利用HCP管理与治理功能消除这种风险。
其分层机制是如何检测并导出陈旧数据的?
Scott Baker用户可以构建一套工作流,用于对接其一级数据与文件分离条件(即过去30天中未被访问的全部文件),并将这部分文件迁移至HCP。
HCI软件是否运行在服务器之上?需要配合哪种服务器?
Scott Baker内容智能是一款纯软件解决方案。其可被部署在裸机、虚拟机或者云环境(即AWS)当中。其要求64位Linux发行版以运行DOcker 1.10以及更新版本。这意味着大家能够随意将内容智能软件部署在任意平台上,从而适应您用例中的实际情况。其最低配置要求为四计算核心、16 GB内存以及64 GB磁盘空间。很明显,您为其分配的内存容量越大,每一实例所能处理的进程与请求也就越多。
其如何为每一位独立用户提供有针对性的个性化结果?
Scott Baker由工作流创建的搜索结果索引可进行自定义,从而控制结果的具体显示方式。在工作流设计器中,大家可以定义与个别用户或者组用户相关的查询设置,其会检查能够查询哪些索引、查看哪些字段以及利用哪些方面进行导航、可使用哪种改进机制,最终判断可利用哪种途径渲染结果集以满足最终用户的应用需求。
在发布API以支持定制化数据连接、转换阶段或者构建新应用方面,它拥有怎样的扩展性能力?
Scott Baker这款产品会提供一套具备完整说明文档的软件开发者工具包(其中包含示例代码),用于构建数据连接以及/或者处理阶段。我们还面向数据访问提供完备的RESTful API集,以供最终用户应用(即搜索应用)使用。
HCI的价格与上市日期是如何设定的?
Scott Baker内容智能软件按照计算核心数量进行授权,内容智能的每个实例要求最低配备四个计算核心。如果需要性能更为强大且具备可扩展性的环境,亦可将内容智能软件运行在一套集群化配置方案内。单一集群最低需要包含四台节点(三台主节点与一台工作节点),但规模亦可进一步提升。目前每核心的市售价格为1万3300美元,但请时刻留意我们的公告,其中经常提供折扣优惠。
产品的正式上市时间为今年12月16日。
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面