科大讯飞



项目概述


客户重要的机器学习样本文件集中存放在统一的曙光存储上,数据来源于各部门,是根据生产需求或买或采集各种数据。曙光ParaStor存储上的样本文件还供给其他业务使用,并且没有删除策略,文件数据巨大。

  • 用户管理要求,曙光ParaStor存储只开放NFS接口用于数据保护; 

  • 数据总量约4PB,文件总数量10亿以上,以语音、文本文件等非结构化文件为主; 

  • 通常情况下资料需要永久保存; 传统备份无法有效完成数据保护。


解决方案

使用云信达CDM系统提供文件同步(FSM)模块,从通用NAS存储中,快速获取全量增量,并且上传至目标存储。CDM管理平台进行分布式任务调度和分布式元数据管理,分配数据传输任务到多个CDM节点,实现任务分拆、并行加速,以获得良好的文件性能体验。

图片关键词


项目亮点

  • 集群文件传输速度线性增长,增量备份速度是提升30+倍。 

  • 实测全量单节点传输速度达52M/S,1500万小文件增量检索时间不到3分钟。 

  • CDM数据保护平台还提供丰富的副本服务,包括快速备份、快速恢复、细颗粒度恢复等功能。


电话咨询
产品服务
解决方案
QQ客服