技术贴丨分布式云存储到底是什么?

图片[1]-技术贴丨分布式云存储到底是什么?-OK资源网

分布式存储系统,是将数据分散存储在多台独立设备上。传统的网络存储系统采用集中的存储服务器存放所有数据存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展

图片[2]-技术贴丨分布式云存储到底是什么?-OK资源网

数据管理的奥义

其中最重要的技术,便是元数据管理、系统弹性扩展技术存储内的优化技术、针对应用和负载的存储优化技术,这几个也决定了一个分布式储存是否成功、能否运行的关键。

毕竟在大数据环境下,元数据的体也非常大,元数据的存取性能是整个分布式文件系统性能的关键。常见的元数据管理可以分为集中式和分布式元数据管理架构。集中式元数据管理架构采用单一的元数据服务器,实现简单,但是存在单点故障等问题。分布式元数据管理架构则将元数据分散在多个结点上,进而解决了元数据服务器性能瓶颈等问题,并提高了元数据管理架构的可扩展性,但实现较为复杂。另外,还有一种无元数据服务器的分布式架构,通过在线算法组织数据,不需要专用的元数据服务器。但是该架构数据一致性的保障很难,实现较为复杂文件目录遍历操作效率低下,并且缺乏文件系统全局监控管理功能

图片[3]-技术贴丨分布式云存储到底是什么?-OK资源网

数据规模和复杂度的增加往往非常迅速,对系统扩展性能要求较高。实现存储系统的高可扩展性首先要解决两个重要问题:元数据的分配和数据的透明迁移。元数据的分配主要通过静态子树划分技术实现,后者则侧重数据迁移算法优化。此外,大数据存储体系规模庞大,结点失效率高,因此还需要完成一定的自适应管理功能系统必须能够根据数据和计算的工作估算所需要的结点个数,并动态地将数据在结点间迁移,以实现负载均衡;同时,结点失效时,数据必须可以通过副本等机制进行恢复,不能对上层应用产生影响。

图片[4]-技术贴丨分布式云存储到底是什么?-OK资源网

构建存储系统时,需要基于成本和性能来考虑,因此存储系统通常采用多层不同性价比的存储器件组成存储层次结构。大数据的规模大,因此构建高效合理的存储层次结构,可以在保证系统性能的前提下,降低系统能耗和构建成本,利用数据访问局部性原理,可以从两个方面对存储层次结构进行优化。从提高性能的角度,可以通过分析应用特征,识别热点数据并对其进行缓存或预取,通过高效的缓存预取算法和合理的缓存容配比,以提高访问性能。从降低成本的角度,采用信息生命周期管理方法,将访问频率低的数据迁移到低速廉价存储设备上,可以在小幅牺牲系统整体性能基础上,大幅降低系统的构建成本和能耗

图片[5]-技术贴丨分布式云存储到底是什么?-OK资源网

传统数据存储模型需要支持尽可能多的应用,因此需要具备较好的通用性。大数据具有大规模、高动态及快速处理等特性,通用的数据存储模型通常并不是最能提高应用性能模型。而大数据存储系统上层应用性能的关注远远超过对通用性的追求。针对应用和负载来优化存储,就是将数据存储应用耦合。简化或扩展分布式文件系统功能,根据特定应用、特定负载、特定的计算模型文件系统进行定制和深度优化,使应用达到最佳性能。这类优化技术谷歌、Facebook等互联网公司的内部存储系统上,管理超过千万亿字节别的大数据,能够达到非常高的性能

图片[6]-技术贴丨分布式云存储到底是什么?-OK资源网

IPFS则是分布式存储中的翘楚,可以从本质上改变网络数据的分发机制。IPFS每个文件及其中的所有块都被赋予一个称为加密散列的唯一指纹。通过网络删除重复具有相同哈希值的文件,通过计算可以判断哪些文件是冗余重复的,并跟踪每个文件的版本历史记录。每个网络节点存储它感兴趣的内容,以及一些索引信息,有助于弄清楚谁在存储什么。查找文件时,通过文件哈希值就可以在网络中查找到储存该文件节点,找到想要的文件。使用称为IPnS(去中心化命名系统),每个文件都可以被协作命名为易读的名字。通过搜索,就能很容易地找到想要查看的文件IPFS设想的是让所有的网络终端节点不仅仅只充当浏览器或客户的角色人人都可以作为这个网络的运营者,人人都可以是服务器

图片[7]-技术贴丨分布式云存储到底是什么?-OK资源网

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发