新聞稿

5 分鐘閱讀

Tachyum FP8 超級稀疏性為高效生成式人工智能指明了道路

拉斯維加斯2023 年8月22日——Tachyum™ (速生)今天宣布發布了一篇新的研究論文,探討全球首款通用處理器Prodigy® (神童)將如何改變生成式人工智能(GenAI )的質量、效率和經濟性。

“利用FP8 8:3 超稀疏性實現生成式人工智能前所未有的規模和效率"提供了有關Prodigy(神童) 如何更有效地滿足生成式人工智能的計算和規模要求的技術信息,生成式人工智能是在海量數據集上進行訓練,以創建原創結果,而不是識別或分析已知數據。訓練數據越大,生成式人工智能的輸出就越好、越準確。 ChatGPT 3.5 是生成式人工智能模型的典型範例,擁有1,750 億個可訓練參數,而ChatGPT 4.0 則將這一數字提高了10 倍,達到1.76 萬億個參數,在不久的將來還可能再提高10 倍。

ChatGPT 等語言模型、視覺模型和其他生成式人工智能工具都因成功的擴展而有了顯著的改進,從而產生了令人印象深刻的接近人類的能力。這些不斷增長的參數要求相應提高訓練人工智能係統的計算能力:高內存容量、高處理性能和高內存帶寬,以優化大型密集模型的效率。如今,最大的人工智能計算規模每六個月翻一番,超過摩爾定律 7 倍;從生成式人工智能發展到認知式人工智能,預計需要 100-1000 倍的計算能力。

為了解決內存和能源消耗問題,量化降低了參數的精度,以此來壓縮深度神經網絡(DNN)。同樣,修剪能去除冗長/不敏感參數,從而降低密度。雖然密度通常是成功訓練模型的必要條件,但一旦訓練完成,就可以刪除許多參數,而不會降低質量。

在本文中,Tachyum(速生)展示了 Prodigy(神童) 如何克服生成式人工智能成本過高、能耗過大的硬件低效問題。 Prodigy(神童)使用 8 位浮點(FP8)和 8:3 塊修剪實現量化,提高了性能、功耗和內存帶寬,從而實現了巨大的模型規模。 Tachyum(速生)的建議大大提高了訓練速度,並減少了模型訓練後的內存佔用。超級稀疏 FP8 8:3 極大地縮小了模型尺寸(這對語言模型非常重要),並降低了功耗和麵積(這對邊緣和物聯網應用非常重要)。

“Tachyum(速生)公司創始人兼首席執行官Radoslav Danilak博士說:“生成式人工智能是一項真正的變革性技術,但如果不解決運行此類大型模型所面臨的硬件挑戰,它的價值就無法實現,也無法被廣泛採用。 “Prodigy(神童)有望在2024年成為主流的高性價比高性能處理器,這些壓縮方法加上硬件支持,將使中小型企業和學術用戶也能使用大型、密集的深度學習模型。”

因為 Prodigy(神童) 比當前可用的人工智能處理器提供了更多的內存 — 使用低成本 DRAM 的 2TB 和每個插槽 32TB,而 4 插槽 Prodigy 平台支持低成本 8TB 和高達 128TB 的 TSV DDR5 DRAM–單個 Prodigy(神童)芯片可取代 10 多個競爭對手的設備,提供前所未有的性能、可擴展性和效率。

FP8 8:3 模型必須在 Tachyum (速生)芯片上進行訓練,以達到適當的計算效率。 FP8 8:3 推論和生成式人工智能 IP 現已提供給合作夥伴和客戶;許可證包括所有必要的軟件,與流程無關。

作為一款通用處理器,Prodigy(神童)可為所有工作負載提供實用性,其支持的數據中心服務器可在單一架構上實現計算域(如人工智能/移動計算、高性能計算和雲計算)之間的無縫動態切換。 Prodigy(神童)無需昂貴的專用人工智能硬件,並能顯著提高服務器利用率,從而大幅降低資本支出(CAPEX)和運營支出(OPEX),同時提供前所未有的數據中心性能、功耗和經濟性。 Prodigy(神童)集成了192 個高性能定制設計的64 位計算內核,為雲工作負載提供的性能是最高性能x86 處理器的4.5 倍,為高性能計算提供的性能是最高性能GPU 的3 倍,為人工智能應用提供的性能是其6 倍。

關於 “利用 FP8 8:3 超稀疏性在生成式人工智能中實現前所未有的規模和效率”,請訪問網站

https://www.tachyum.com/resources/whitepapers/2023/08/22/unprecedented-scale-and-efficiency-in-generative-ai-with-fp8-83-super-sparsity/.

關注 Tachyum(速生)

https://twitter.com/tachyum

https://www.linkedin.com/company/tachyum

https://www.facebook.com/Tachyum/

關于 Tachyum(速生)

Tachyum(速生)正在利用全球首款通用處理器Prodigy(神童)改變人工智能、高性能計算、公共雲和私有云工作負載的經濟性。 Prodigy(神童)將CPU、GPGPU和TPU的功能整合到一個處理器中,為專業計算和通用計算提供業界領先的性能、成本和能效。使用Prodigy(神童) 配置超大規模數據中心後,所有人工智能、高性能計算和通用應用程序都可以在相同的基礎設施上運行,從而為公司節省數十億美元的硬件、佔地面積和運營費用。由於全球數據中心的排放導致氣候不斷變化,並且消耗了全球4%以上的電力–預計到2030年將達到10%–超低功耗的Prodigy(神童)通用處理器是以較低環境成本滿足全球計算需求的一個潛在突破。 Prodigy(神童)目前正處於批量生產前的最後測試和集成階段,其原型已被快速增長的客戶群所採用,強勁的採購訂單預示著該公司很可能在 2024 年底首次公開募股。 Tachyum(速生)公司在美國和斯洛伐克設有辦事處。更多信息, 請瀏覽https://www.tachyum.com/.