探索 Diskover 的数据管理理念

本文介绍了美国初创企业 Diskover 如何通过开放源代码元数据管理软件,利用文件与对象元数据建立数据管道,支持文件扫描、索引及数据分析,从而优化存储资源和工作流。

美国创业公司 Diskover 是一家自上而下的开源元数据管理软件公司,其客户数量虽不多,但客户均为重要企业,例如 Arm, Disney, Micron 和 WarnerMedia CNN,并且其增长主要依靠口碑传播,而非大规模开发者的采用。

本文将分两部分探讨 Diskover。第一部分介绍该公司的基本理念,第二部分则讨论其在 AI 及其他数据管道活动中的应用。

Diskover 是一家数据管理公司,在某种程度上类似于 Arcitecta, Datadobi, Data Dynamics, Komprise, Hammerspace 等公司。其市场策略是为客户提供尽可能最佳和最全面的视角,让客户借助直接和衍生的文件及对象元数据来查找、监控和管理他们的数据资产,从而构建数据管道。该公司拥有十几名员工,已经吸引了大约 60 多家客户,而这一切几乎都是在极少营销活动下实现的。

我们接受了首席执行官 Will Hall 和首席产品官 Paul Honrud 的介绍。基本情况是:Diskover 由初任 CEO 现任 CTO Chris Park 于 2016 年创立,并开发了名为 diskover-web 的网络应用程序,用于管理文件和提供存储分析功能。该应用程序采用 Elasticsearch 进行索引和爬取,支持本地和公共云中通过 NFS/SMB 接入的文件系统。其目标是提供对异构数据资产的可见性,识别未使用的文件,从而减少存储浪费。

Diskover 提供免费社区版软件,同时为企业开发了收费支持版—— Professional、Enterprise、Media、Life Science。该公司还开发了一种插件架构,使其软件具备良好的扩展性。

Paul Honrud 于 2021 年 6 月担任 CEO,并于 2024 年 7 月出任首席产品官,当时 Will Hall 被任命为 CEO。Honrud 曾于 2009 年创办并运营非结构化数据管理创业公司 DataFrameworks,其 ClarityNow 软件为文件和云存储提供数据分析与管理功能,能够对异构存储系统中的数据提供全方位视图。

Dell 于 2018 年收购了 DataFrameworks。Honrud 在 2020 年前留任 Dell,担任非结构化文件与对象管理领域的现场 CTO,次年加入 Diskover。Hall 在加入 DataFrameworks 前,曾在 NetApp、Fusion-io 和 Scality 担任销售和高管职务;他曾在 Dell 担任全球非结构化数据客户的客户经理,后于 2020 年离职出任晶圆级公司 Cerebras 的销售副总裁。2023 年,他成为 Eclipse Ventures 的运营合伙人,并于次年通过再度担任 Diskover 的 CEO,与 Honrud 再次携手。

Diskover 表示,数据管理存在一个连续谱系,从基本的文件系统故障修复——即“出了问题”——到工作流程和管道操作,而公司正定位于后者。

Honrud 表示,那些在问题出现时介入的供应商,具备“一套数据管理功能,显然主要面向事后修复(例如备份出错或 Cohesity 所提供的解决方案);当系统出现故障或遭遇勒索软件攻击时,他们能够帮助恢复数据。这些供应商就如同 Veeam、Cohesity 或 RNAs 一样,只有在出现问题时,其价值才会显现。”

接下来,他指出:“你们有我所称的‘空间告密工具’。这正是传统存储供应商对空间管理的看法:存储设备有多老、容量有多大、最后一次访问时间、是否存在重复文件——实际上就是一种空间告密工具,但仅凭这一点很难建立起成功的商业模式。”

他进一步解释道,虽然空间告密工具在某些情况下非常重要:“当存储空间满了,需要迅速‘断舍离’,我必须马上清理一些东西,进行‘速减’,以便继续工作;或者当他们购买新存储设备时,只能将问题暂时搁置。但在这两个时间点之间,你完全可以关闭软件而无人抱怨。这种情形非常棘手,很难围绕它建立起稳固的商业模式。”

而数据迁移供应商则更进一步地满足客户需求:“如果你不想真正改变现有的生活方式,仍希望沿用这种‘速减’模式,那么我们便可以帮助你,快速找出需要删减的部分。围绕数据迁移,你会看到各种技术应用——这些都是数据搬运工具……市面上大约有 30 种左右。”

他指出:“这是一个竞争异常激烈的市场,而且每天都有新公司涌现。比如,还有一家叫 MASV 的公司。这些都是从事数据迁移的公司。他们意识到,数据迁移很难建立起持续性的收入模式。如果你的数据迁移仅仅局限于数据搬迁,比如销售一台大型全新 Isilon 存储设备,然后将数据从旧的 Isilon 迁移到新的 Isilon,这基本上只是一次性的使用场景。”

Honrud 表示,他们的策略略有前瞻性:“他们逐渐意识到,这并非问题的核心。问题的核心在于:哪些数据需要在何时、何地放置,以支持工作流程。因此,他们开始构建数据分析功能,但这些分析往往带有偏见,因为他们在推销自己的数据迁移技术。比如,他们会说‘如果你把数据移至这里,成本更低’、‘哦,看这些数据有多旧’。其实他们并没有真正理解数据,而只是试图提供推动数据迁移的分析。”

现在我们进入工作流程/管道领域:“接下来便是数据管理在工作流程和管道方面的问题:我拥有哪些数据?为何拥有这些数据?如何更高效地运营业务?”

他表示,许多组织通常是为了制造某个产品、制作一部电影、设计一款新芯片,或者致力于癌症研究。那么,如何利用与之相关的数据,制作更多电影、缩短芯片设计周期?又该如何管理数据以提升业务效率?目前这一领域非常火热,因为大家都意识到,如果不懂得数据中哪些是优质数据、哪些是垃圾数据,就无法为 AI 模型提供所需的数据支持。

Diskover 的软件通过扫描和索引数据,构建出元数据目录,并利用该目录支持搜索、分析、操作和自动化:

其软件由扫描器和数据摄取器组成,用以填充元数据目录;借助 Elasticsearch 支持查找文件和对象中的数据管理工具,对数据进行分析、编排及可视化。该软件支持将数据以 Parquet 格式输送到数据湖和湖仓中。

该软件设计用于在可横向扩展的环境中运行,假设存储库采用分布式索引,并具备可以横向扩展的索引能力。Honrud 表示,其持续、缓存且并行的扫描能力能够连接到任何文件系统,并处理海量数据。

其扫描技术既利用系统直接生成的文件和对象元数据,也利用推导出的间接元数据。Honrud 还探讨了对数据留下的访问指纹进行逆向工程的技术。

他说:“如果我走进你的车库或查看你的笔记本电脑,我就能判断你是喜欢网球、骑行还是集邮。从这些‘指纹’中,我可以了解关于你的许多信息。”

“这是第一点。第二点是,大多数存储供应商以及数据管理领域的从业人员,往往在数据生命周期的末端开始管理数据——到了归档阶段,比如数据超过三年,就认为该迁移了。但这一思路往往错失了在数据刚生成时捕获元数据的机会,而那时的数据内容才是最有价值的(例如从相机、显微镜或基因组测序仪输出时)。因此,我们应将数据管理和元数据处理的重心转移到数据最初入库的时候,并在整个生命周期内跟踪数据。”

“当一个新的存储设备被配置时,通常是由某人通过 Jira 或 ServiceNow 提交服务票据来完成。该票据会送至 IT 部门,他们随后创建 NFS 共享、 SMB 共享和 S3 桶。之后,票据关闭,业务用户便可开始在存储上投入数据。此时,他们就错失了捕捉元数据的机会——因为在那张 Jira 票据中通常包含项目名称、项目负责人、项目启动日期,甚至预计结束日期。但如果你仅仅创建共享而抛弃这些信息,就仿佛将一堆宝贵元数据随手丢弃。”

Diskover 捕捉到这些被遗弃的潜在元数据,并加以利用。不过,关于这一点,还有更多值得探讨的内容。

Honrud 补充道:“捕捉元数据的下一个方法是确保文件系统中显示的拥有者和群组信息准确无误。换句话说,我可能是项目负责人,但实际上是另一个人将数据加载到文件系统中,因此系统中显示的拥有者实际上是数据上传者,而我才是真正管理整个项目的人。所以,第一个问题在于,你找错了沟通对象。比如‘嗨 Chris,我们该如何处理这些数据?’实际上,你并不是数据的实际使用者,而只是数据的上传者。因此,在科研环境中,你需要知道项目负责人或主要研究人员的信息。如果用户通过 AD 或 LDAP 登录,你便可以通过 Active Directory 或 LDAP 进行反查,获得大量元数据——通常我能判断出你汇报给谁,以及你所在的部门。”

Diskover 对数据进行扫描和索引,并将索引后的元数据导入 Elasticsearch,随后它可以将数据上送至可视化工具、数据仓库、湖仓等上游系统。

来源:BLOCKS & FILES

0赞

好文章,需要你的鼓励

2025

04/25

09:53

分享

点赞

邮件订阅