12月18日,由中国信息通信研究院、中国通信标准化协会、北京市大数据中心联合主办的“2020数据资产管理大会”在北京拉开帷幕,会上信通院为通过大数据、数据库等能力评测的产品颁发证书。华为云GaussDB(DWS)数据仓库以单集群2048节点的超大规模,满分通过测试认证,是迄今为止信通院认证的最大规模分布式数据库集群,刷新了历史纪录,树立了业界新标杆。
随着移动互联网、IoT、人工智能等技术的迅速发展,数据产生的规模空前增长,据知名咨询机构统计,预计未来5年数据规模年均增速达30%,面对快速膨胀的数据规模,各类企业、机构需要更快、更全面的掌握分析数据,挖掘内在价值,支撑经营决策和优化管理,数据仓库作为核心查询分析平台,必须要具备大规模集群能力,也是数据库厂商需要突破的核心技术点之一。
华为云GaussDB(DWS)为各企业用户提供最佳性能、按需扩展、稳定可靠的企业级数据仓库,满足客户超大规模数据的高性能查询分析诉求。在本次大规模集群测试评估中,华为云GaussDB(DWS)一次性通过50项测试用例,包括27项必选用例和23项可选用例,交出了完美的答卷。
大规模数据仓库集群不仅仅是将众多服务器“攒”起来,更需要解决大并发复杂查询下的通信连接风暴问题。并且在数千节点的集群中,平均每天都会有硬件故障发生,如何应对“硬件不可靠”带来的问题?如何在硬件亚健康情况下数据仓仍能提供稳定的性能,如何在操作系统“软死”情况下数据仓库不出现卡顿、无响应等问题,是技术面临的极大挑战。在2048节点大规模集群认证的背后,是华为云GaussDB(DWS)强大“硬核科技”的表现。
一、Multi-Streams多流通信技术
在2048节点规模下,集群进行全并行数据交换时,集群内可达百亿级的并行连接,出现通信连接风暴,已远远超出TCP连接端口号和socket文件句柄上限。
GaussDB(DWS)自研的Multi-Streams多流通信技术,将连接数提升5个数量级,突破物理机TCP连接端口限制,能够支持集群内百亿级通信连接,并且理论支持节点数无上限。
Multi-Streams多流通信采用逻辑连接技术,避免了TCP物理连接的三次握手的机制,单数据节点建连性能达到100万次/s,提升20倍。
该技术基于全异步无阻塞代理通信架构,支持跨逻辑连接的socket合并,将网络吞吐能力提升3倍。
二、高可用设计及集群管理技术
GaussDB(DWS)设计之初,即充分考虑高可用性,其具备多层级高可用及容灾能力,在进程级、节点级、集群级出现软硬件异常的情况下具备平滑处理能力。
在棘手的硬件亚健康、“软死”问题上,GaussDB(DWS)具备完善的智能检测和处理机制,能够实时监测任意节点状态,包括服务器亚健康状态、磁盘慢盘、静默损坏等等场景,通过自动感知、剔除、平滑切换等高可用策略,提高业务的连续性。
并且,在物理组件发生故障的情况下,Server端Multi-Retries技术能够大幅减少故障失败的业务感知,保障业务持续运行。
在集群管理上,针对超大节点数场景,通过逻辑重构,实现集群起停的全并行处理,2048节点规模下具备分钟级起停能力。
三、大规模场景下的并行数据备份恢复技术
完全在线:数据备份期间,采用全程无加锁技术,任何业务SQL、包括DDL均不受影响
多层级并行极速备份:每节点独立多并发、多通道备份,提供10PB级数据快速备份恢复性能
全局一致性快照:集群级全局一致性快照,数据强一致性保证
细粒度数据恢复:支持多粒度数据恢复,满足客户误删、个别表损坏等紧急恢复需求。
得益于包括以上三点在内的一系列核心技术,华为云GaussDB(DWS)一举通过信通院2048节点大规模分布式分析型数据库评测,成为国内首个单集群突破两千的商用数据仓库产品。
华为云GaussDB(DWS)数据仓库已广泛应用于金融、政府、运营商、交通、物流、互联网等领域,服务于全球1000+客户。GaussDB(DWS)践行"平台+生态"战略,联合500+合作伙伴,为各行业提供竞争力的数据仓库解决方案。
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。