存储

  |  手机版

收藏网站

投稿QQ:1745232315

IT专家网,汇聚专业声音 解析IT潮流 IT专家网,汇聚专业声音 解析IT潮流

网络

专家视点在现场环球瞭望
IT专家网 > 存储

IDF14:全闪存VSAN、缓存Hadoop和高可用

作者:黄亮出处:比特网2014-04-03 09:40

  VSAN也可以做全闪存?

  作为软件定义存储的代表,VMware Virtual SAN是最近业内的热点。利用服务器本地SSD缓存+硬盘组成分布式DAS,带有高可用的虚拟机DataStore存储池,甚至被认为给传统SAN共享式存储系统带来了重大威胁。上面列出了它的一些基本特性,我就不一一重复了,相信现在找到VSAN的资料不难。

  如上图,Intel搞的这个对比测试有什么特别之处吗?左边是标准的VSAN设计——每台物理服务器上的磁盘组,包含一个SSD读/写缓存和若HDD硬盘;而在右边似乎用的全是SSD——我可从来没听VMware说过可以这样搞?有什么意义吗?

  上面这张图有点像Intel企业级SSD的广告(笑),我把它也列出来的意思是:Intel认为PCIe接口的SSD 910和SATA接口的DC S3700适合作为VSAN的缓存驱动器,理由是HET MLC闪存的高写入寿命;而标准写入寿命的DC S3500(普通MLC闪存)可以作为VSAN数据驱动器,即代替传统硬盘。

  如果说VSAN对应的是闪存混合阵列的话,那Intel上述玩法就要对应全闪存阵列了,而且还是内部带有层级的。这个让我想起了戴尔Compellent在SLC和MLC SSD之间做自动分层存储的做法。

  看看性能测试的结果。在4KB数据块大小,90%读-10%写完全随机访问的情况下,当(在4台物理机上的)虚拟机数量从4、8、16一直增加到32,全SSD VSAN的IOPS一直在上升,领先就不用说了;而带有缓存的HDD配置则在16个VM时就下降到低于4个VM的水平。

  至于延时(Lantency),尽管全SSD VSAN和缓存HDD配置都随虚拟机增加而上升,但前者明显趋势较为平缓。造成这种情况的原因,后面我们会有简单分析。

  继续来看70%读-30%写(这个比例正好符合)完全随机访问的情况,这时缓存HDD配置的表现相对好了些——VM数量从8到16,IOPS上升而延时下降;但到了32个VM时与全SSD VSAN的差距又拉大了。

  当测试工作负载的读写比例,与VSAN SSD缓存的读写比(默认70-30)相同或者接近时,缓存的效果理论上相对最好

  (注:具体测试配置参见Intel技术课程资料《使用固态盘打造响应性能更高、成本更低的数据中心》最后一页)

  这个是Intel的测试结论,其中包括几点:

  1.基于固态盘的虚拟机扩展能力比基于机械硬盘的要好。

  2.70/30 读写比分割了缓存驱动器,从而限制了固态盘的性能——按容量分割的同时,也会带来I/O性能的争用,毕竟标准VSAN设计是追求性价比的

  3.固态盘提供了高达2-3倍的性能提升 和 2到3倍的时延降低

  最终Intel建议在全闪存配置中使用DC S3700作为VSAN的缓存盘,而不是性能/价格更高的SSD 910。我觉得是因为“后端存储”已经从硬盘换成了SSD,所以缓存盘对性能的影响相对减少了

  让我们等着看看,有哪些“高富帅”用户会选择这样的全闪存VSAN吧。

  欢迎关注 @唐僧_huangliang (新浪微博),一起交流IDF。

  SSD对Hadoop的意义在哪里?

  SSD对于Hadoop这种分布式存储究竟有没有意义?我见到不止一次有人提出这样的话题。如上图:代表性的HDFS文件系统特点是“128MB-256MB顺序IO操作;单次写入,多次读取,偶尔产生读写平衡;临时/中间数据产生磁盘竞争。”

  这是SSD加速20节点Hadoop集群的概况介绍,测试负载是在“公司‘大数据’的子集中做特定的实时查询(RTQ)”。

  “Hadoop依赖于带宽和数据吞吐量”——这个符合我们之前的了解。通过“将MapReduce临时/中间数据写入SSD DC S3700(每节点一块),来缓解机械硬盘的竞争”,Intel给出的方案是使用他们收购的“缓存加速软件(Cache Acceleration Software)+ DC S3700或者910 SSD为数据硬盘实现读/写缓存。加速Terasort任务的效果最高可达42%。”

  这里我要解释一点:SSD“高达500MB/s的顺序带宽”理论上通过多块硬盘并写读写也是可以达到的,但关键在于实际应用中并不总是理想的顺序访问,当一个硬盘同时响应多个请求时,顺序的负载一定程度上就变成了随机(需要不断寻道在不同任务中切换)。

  我记得LSI的Nytro MegaRAID——基于RAID卡实现的SSD缓存方案,也做过类似的Hadoop性能测试。

  欢迎关注 @唐僧_huangliang (新浪微博),一起交流IDF。

  Storage Foundation 6.1 FSS软件定义存储

  这张图的左上角,大家也看到赛门铁克的logo了。他们描述的“一级(Tier 1)存储”以EMC VMAX为代表,通过捆绑大量硬盘来实现高IOPS,通常会带来容量的浪费,以及高昂的每IOP成本。

  即使换成现在的全闪存阵列,比如IBM FlashSystem(原TMS)和Violin Memory等,往往还是价格不菲。

  如果要想将闪存存储的硬件成本最小化,本地直连是最好的选择,同时还有利于性能发挥特别是减少了存储网络带来的延时。Symantec Storage Foundation存储软件 + Intel SSD,在单机上跑Oracle数据仓库可以达到380k 事物/每分钟,性能达到传统SAN磁盘阵列的4.5倍,而成本只有SAN的20%(按照VMAX 1/5可用容量进行对比)。

  不过,上述配置没有节点间的冗余高可用。即使我们用ASM来做磁盘镜像,服务器上其它组件还是存在单点故障

  不要忘了赛门铁克还有集群文件系统,传统的Storage Foundation应该是做双机双柜(即两台阵列)配置多一些,因为主机和存储之间具备完整的SAN网络互连。而今的软件定义存储时代,用DAS方式连接的SSD,通过集群文件系统组成带有镜像保护的逻辑共享访问存储,性价比会更高一些。此时获得了数据冗余、服务器集群(包括存储单元)之间的故障转移、灾难恢复能力,并且不需要管理高端存储的专业运维人员。

  这种配置下,由于InfiniBand高速网络的数据同步开销,性能小幅下降到320k 事物/每分钟 和 SAN的4.5倍,成本也没有明显上升。

  上面是厂商给出的总结,当然SSD换成Intel以外别的家,效果也是类似的。

  这张照片是我前一段在发布会上拍摄的。刚才提到的方案应该就是Storage Foundation 6.1新增的FSS,它的结构有些类似于VSAN。另外左边还有一个SmartIO——用分布式SSD缓存来加速后端的SAN共享存储,它支持卷(块设备)上的读缓存和文件系统上的写缓存。

  根据我之前的了解,目前这一版本还只支持Linux,没有提到Windows和VMware等。另外,Storage Foundation的部署对数据是“破坏性”的,这也是所有基于文件系统的高可用方案的共同特点。

  欢迎关注 @唐僧_huangliang (新浪微博),一起交流IDF。

  沃趣科技QData 双RAC节点FREE-SAN

  上面的Storage Foundation FSS,让我想起了不久前国内沃趣科技推出的QDataOracle数据库一体机——双RAC节点FREE-SAN,由几位前阿里巴巴DBA大牛带队,通过对数据库架构的精深理解进行深度定制化的产品。

  这个图画的略显简陋,大致意思是使用两台服务器内部的盘(PCIe闪存卡)通过双IB链路Qlink,替代传统Oracle RAC集群的共享存储,同时仲裁盘(voting disk)应该也是双冗余链路来实现节点间的镜像同步。

  我们看到,在Qlink 40Gb InfiniBand存储层之上,RAC节点实例可以像对待2台共享磁盘阵列那样部署ASM/CLVM数据冗余

  沃趣的资料中这样描述:“QLink 基于 40Gb infiniband + PCIe Flash 在两个RAC节点之间互相输出高性能的IO 能力;双链路 Active/Active 确保IO性能和 IO的稳定性”。

  怎么样,有点IB SAN对连的感觉吧?总之这个方案是可以替代Storage Foundation 6.1 FSS(for RAC)的,至于价格等更多详情我就不清楚了。

  总结

  最后还是那句话,闪存以及本文中讨论的解决方案,就像全闪存阵列那样,对传统企业级存储产品带来的冲击是不可避免的,只是早晚、程度不同而已。相关厂商如果不自己跟上创新、变革的潮流,就会被别人“革命”,而存储只是IT技术发展的一个角落。

相关文章

关键词:全闪存VSAN,缓存Hadoop,高可用,IDF2014,存储管理

责任编辑:周钜翔

网警备案