1. <ins id="vdscy"><acronym id="vdscy"></acronym></ins>

        新聞中心

        0512-87776571

        szsl@sl2500.com

        進入Sora時代,需要什么樣的存儲?

        時間:2024-02-29 10:39:14   作者:   來源:

         2月16日,OpenAI推出Sora。通過文本指令,Sora可以直接輸出長達60秒的視頻,并且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。以Sora生成的《東京街頭》視頻為例,視頻大小為46.1MB。

        可以預見,此后,Sora每天產生的數據量將更加驚人。

         

        Sora來了 呼喚卓越存力

         

        生成式AI新應用對算力、算法要求高,對存儲底座同樣要求高。而且隨著數據量的激增,存儲成本也在上升。

        OpenAI公布的Sora技術文檔顯示,在訓練Sora時需要先用預訓練模型把大量的、大小不一的視頻源文件編碼轉化為統一的patch表示,再把時空要素提取作為transformer的token進行訓練。單就開展這項工作,就對存儲的性能、容量以及數據的處理速度提出了極高的要求。同時,技術文檔也說明了,數據集越大,大模型效果越好。

        這就意味著,如果想要訓練用戶自己的大模型,必須有一個高性能的存儲底座來支撐。而一套真正符合AI訓練需求的存儲系統,應該是在提供卓越性能的同時,不給用戶帶來過多的經濟壓力。高性能可以確保AI訓練的數據快速讀取和寫入,從而提升整體訓練效率;同時要降低存儲整體成本,讓高性能存儲“飛入尋常百姓家”。

         

        為AI而生 深信服EDS存儲實現訓推一體

         

        不久前,我們發布了統一存儲EDS 520 版本,是一款專為AI大模型打造的統一存儲平臺,可以實現數據采集、標記、訓練、推理和歸檔的全流程承載。

        一套存儲滿足AI大模型開發全流程的數據需求

        一套存儲滿足AI大模型開發全流程的數據需求

        基于NFS+技術優化的存儲系統,通過RDMA技術、多路徑并行訪問以及多級緩存機制,在4K小文件混合讀寫IOPS和1M大文件混合讀寫吞吐方面,分別達到行業領先水平的1.7 倍和5.7倍,3節點吞吐達到120GB/s,RDMA多路徑帶寬性能比TCP單路徑提升將近50倍,將訓練階段GPU平均利用率從傳統存儲的30%提升至70%。

        這樣的設計不僅提高了大模型處理數據的效率,結合更高的讀寫速度和OPS,讓大模型在讀取或輸出視頻數據時能達到更快速度;而且增強了系統的靈活性和擴展性,使大模型應用可以應對各種類型和規模數據的處理需求,讓大模型訓練可以更高效地管理和存儲數據。

        此外,在高性價比上,深信服EDS存儲實現了單TB可用容量成本降低50%,幫助用戶降低了AI模型訓練的總體成本。實現硬件成本降低的同時,還基于深舟數據管理平臺對數據的高效壓縮和管理能力,64GB可以承載億級以上規模小文件的高速讀寫。

        AI訓練數據命中率達90% 清華大學的高性能存儲實踐

        清華大學智能產業研究院是一所面向自動駕駛、生物計算、綠色計算等領域進行探索的國際化、智能化、產業化研究機構。

        在其開展AI訓練工作過程中,數據規模達到數十億,并且還在不斷增長,出現了數據調閱延時高、GPU訓練效率大打折扣等問題。采用深信服EDS存儲后,AI訓練數據命中率達到90%,小文件讀寫時延降低到us級,百億規模樣本數據可以極速處理,有效保障AI訓練過程中訪問數據的效率,并大幅縮短了科研中的AI訓練時間。

         

        隨著AI向著大模型多模態演進,AI訓練伴隨高并發數據分析,且生成式AI新應用急劇爆發,亟需高性能的存儲底座來支撐。深信服EDS存儲520版本正是為AI而生的全新一代存儲產品,我們希望為千行百業的大模型開發提供極致性能的存力底座,讓數字化惠及千行百業。

         


        來源:深信服

        出差我被公高潮a片久久一级黄色免费高清无码视频国产成人综合久久免费精品免费国产一区二区女