登录
首页职业发展 大数据存储方案为教育信息化提速_数据分析师考试
大数据存储方案为教育信息化提速_数据分析师考试
2015-07-17
收藏

 大数据存储方案为教育信息化提速_数据分析师考试



大数据时代大数据在教育领域有了越来越广泛的应用,学校拥有可用的、高质量的海量数据逐渐成为现实,但如何保护这些海量、非结构化的用户数据,并时时进行信息挖掘,给未来教育带来更大的可能,则对教育研究者的想象力提出了挑战。正如上海易班发展中心主任、易班网CEO朱明伦所言:“易班的海量数据需要安全可靠的存储,帮我们解决数据存储问题,同时在数据安全性、容灾备份给与更多帮助。

  大数据需求凸现

  易班全称“易班学生网络互动社区”,其前身是“上海大学生在线”,是中国第一家面向大学生的实名互动平台。该网站不仅提供BBS、SNS、博客、微博手机互联等多种新型互联网应用,同时根据高校的特点,研发了话题、日程表等基于班级的特色应用,交流大量的优质教育资源。

  作为上海市高校师生互动交流的主要平台,基本覆盖了上海的全部大学生,60余所高校里,现有55所学校基本上100%进易班,用户量已达50多万,日均访问IP超过25万,日均点击率达到80万次。目前用户数据量已经达到30TB,并且每天以GB数量级激增。庞大的数据已经造成现有硬件存储设备严重欠负载状态,就目前的负载情况来看,易班仅能为二万左右的新用户提供服务。易班数据来源复杂而且拥有大量非结构化数据,整体数据管理工作面临很大压力,因此需要一个专业的规划师来帮助建设虚拟数据中心,以解燃眉之急。

  不久前,易班采用了EMC Celerra NS-480 存储系统作为主存储,构建第一个虚拟化数据中心,EMC方案的应用很好解决了原有盘柜存储的若干问题,主要表现在改善系统扩容,对磁盘运行情况实现智能预警,提升响应速度,节约成本等方面。很值得众多方案商借鉴。

  实效:显著改善数据管理水平

  EMC的Isilon NL 系列为第二数据中心提供了非结构化数据的高性能承载,为将来的无缝扩容提供了保障。Isilon能自动根据存储对象扩容,透明方便。整个存储空间有较大的平行扩展能力,使客户不再担心空间容量问题,是诸如易班这类网站用于存储海量非结构化数据的理想选择。

  EMC统一存储把读写频繁的数据放在闪存里,读写不频繁的依次往下排列,实现了自动化、智能化的数据存储和管理,改善了以前盘柜形式单一、难以整合的情况。同时,在价格上比全部使用盘柜闪存更低,读写速率也比单独使用SASSATA更快,达到了真正的经济高效。相比于原有的盘柜来说,相同一个网页页面处理时间为60毫秒,现在使用EMC统一存储系统后,只需40多毫秒就可以实现,速率提升至少20%以上,整体上比机架加盘柜形式处理效率更高。

  之前,由于易班网站对磁盘的读写频率很高,所以碰到磁盘故障的概率较高,如未及时处理,将面临数据丢失的风险。之前易班都通过人工定期检查,不仅费时费力,还不能及时发现问题。EMC解决方案有完善的管理软件,还有一个预警机制,一旦磁盘出现故障,可以实时发现并自动报警。同时,EMC工程师经验丰富,在几次帮助易班系统升级时表现都很专业,降低了数据丢失以及不完整的风险,保证数据在升级过程中平稳安全。

  使用EMC解决方案后,易班数据中心不再像之前一样配备较多人员,还经常出现手忙脚乱的局面了。现在虽然数据量增加了,但数据中心运维部仍然只有四个人,负责管理网络、服务器、存储和应用软件。存储方面节省了大量人力。

  EMC方案可以对关键的数据集(如 MS SQL 数据库)提供容灾保护,实现起来并不复杂。EMC VNX5500可以提供超过30TB的容量,结合RecoverPoint软件,有效实现了两个数据中心内的连续数据保护,如下图,在VNX5500出现问题时,自动连接到另一数据中心的Celerra NS-480,保证了网站稳定运行。

  

图1 易班数据中心部署架构示意图

  方案保障数据高效运转

  易班对于数据存储的总体要求非常高,但这些需求对EMC来说都不是难事儿,在易班截至目前三期的项目中,EMC先后提供了Celerra NS-480 + VNX5500 +RecoverPoint+Isilon一整套精英利器,这些武器功能非凡,整合在一起,可以完美解决易班数据管理问题。

  EMC Celerra NS-480 统一存储系统最先出场。Celerra为多协议环境提供了高级故障切换和全自动存储分层功能。最多可扩展到480 个磁盘,超越直连存储限制。使用 EMC Unisphere管理软件简化了常见管理任务,通过文件系统重复数据消除、FAST 缓存、虚拟资源调配和自动化卷管理实现更高的效率。

  VNX5500统一存储是EMC虚拟应用程序优化的高性能统一存储平台,存储容量超过30TB,其自我优化的存储分层和以应用程序为中心的复制能力,可以优化闪存、SAS 和近线 SAS 驱动器中的数据。它的应用无疑是为易班更好驾驭这些大数据,提升混合工作负载的运行速度,极大提升性能。

  易班现在除了数据库服务器外,其余都将运行在虚拟化软件。现在物理机有8个刀片,虚拟机数量有30多台。在项目三期里预计将增加十几块刀片,虚拟机的数量达到300多个。EMC RecoverPoint可利用多个恢复点将应用程序即时恢复到特定时间点,从而提供连续数据保护,这一点可以很好满足客户对业务连续性、数据安全性方面的高要求。

  横向扩展存储专家EMC Isilon具备极高的存储处理通量,部署简单而又具有高扩展性。它能够加速用户对数字内容和非结构化数据的存取,极大地减少存储系统的复杂性,降低存储成本,同时可线性扩展其性能和容量,是易班用于存储海量非结构化数据的优先选择。

  另外,由 EMC、CiscoVMware 三方联盟所提供的最优化IT 基础设施VCE构架参考方案,VCE构架吞吐量比盘柜的更大,服务器和阵列之间的交换速率能达4GB/s,这样的处理速度,是易班之前无法达到的。


数据分析咨询请扫描二维码

客服在线
立即咨询