新闻稿

5 分钟阅读

Tachyum FP8 超级稀疏性为高效生成式人工智能指明了道路

拉斯维加斯2023 年 8月 22日——Tachyum™ (速生)今天宣布发布了一篇新的研究论文,探讨全球首款通用处理器 Prodigy® (神童)将如何改变生成式人工智能(GenAI)的质量、效率和经济性。

“利用 FP8 8:3 超稀疏性实现生成式人工智能前所未有的规模和效率 “提供了有关 Prodigy (神童)如何更有效地满足生成式人工智能的计算和规模要求的技术信息,生成式人工智能是在海量数据集上进行训练,以创建原创结果,而不是识别或分析已知数据。训练数据越大,生成式人工智能的输出就越好、越准确。ChatGPT 3.5 是生成式人工智能模型的典型范例,拥有 1,750 亿个可训练参数,而 ChatGPT 4.0 则将这一数字提高了 10 倍,达到 1.76 万亿个参数,在不久的将来还可能再提高 10 倍。

ChatGPT 等语言模型、视觉模型和其他生成式人工智能工具都因成功的扩展而有了显著的改进,从而产生了令人印象深刻的接近人类的能力。这些不断增长的参数要求相应提高训练人工智能系统的计算能力:高内存容量、高处理性能和高内存带宽,以优化大型密集模型的效率。如今,最大的人工智能计算规模每六个月翻一番,超过摩尔定律 7 倍;从生成式人工智能发展到认知式人工智能,预计需要 100-1000 倍的计算能力。

为了解决内存和能源消耗问题,量化降低了参数的精度,以此来压缩深度神经网络(DNN)。同样,修剪能去除冗长/不敏感参数,从而降低密度。虽然密度通常是成功训练模型的必要条件,但一旦训练完成,就可以删除许多参数,而不会降低质量。

在本文中,Tachyum(速生)展示了 Prodigy(神童) 如何克服生成式人工智能成本过高、能耗过大的硬件低效问题。Prodigy(神童)使用 8 位浮点(FP8)和 8:3 块修剪实现量化,提高了性能、功耗和内存带宽,从而实现了巨大的模型规模。Tachyum(速生)的建议大大提高了训练速度,并减少了模型训练后的内存占用。超级稀疏 FP8 8:3 极大地缩小了模型尺寸(这对语言模型非常重要),并降低了功耗和面积(这对边缘和物联网应用非常重要)。

“Tachyum(速生)公司创始人兼首席执行官Radoslav Danilak博士说:“生成式人工智能是一项真正的变革性技术,但如果不解决运行此类大型模型所面临的硬件挑战,它的价值就无法实现,也无法被广泛采用。“Prodigy(神童)有望在2024年成为主流的高性价比高性能处理器,这些压缩方法加上硬件支持,将使中小型企业和学术用户也能使用大型、密集的深度学习模型。”

因为 Prodigy(神童) 比当前可用的人工智能处理器提供了更多的内存 — 使用低成本 DRAM 的 2TB 和每个插槽 32TB,而 4 插槽 Prodigy 平台支持低成本 8TB 和高达 128TB 的 TSV DDR5 DRAM–单个 Prodigy(神童)芯片可取代 10 多个竞争对手的设备,提供前所未有的性能、可扩展性和效率。

FP8 8:3 模型必须在 Tachyum (速生)芯片上进行训练,以达到适当的计算效率。FP8 8:3 推论和生成式人工智能 IP 现已提供给合作伙伴和客户;许可证包括所有必要的软件,与流程无关。

作为一款通用处理器,Prodigy(神童)可为所有工作负载提供实用性,其支持的数据中心服务器可在单一架构上实现计算域(如人工智能/移动计算、高性能计算和云计算)之间的无缝动态切换。Prodigy(神童)无需昂贵的专用人工智能硬件,并能显著提高服务器利用率,从而大幅降低资本支出(CAPEX)和运营支出(OPEX),同时提供前所未有的数据中心性能、功耗和经济性。Prodigy(神童)集成了 192 个高性能定制设计的 64 位计算内核,为云工作负载提供的性能是最高性能 x86 处理器的 4.5 倍,为高性能计算提供的性能是最高性能 GPU 的 3 倍,为人工智能应用提供的性能是其 6 倍。

关于 “利用 FP8 8:3 超稀疏性在生成式人工智能中实现前所未有的规模和效率”,请访问网站https://www.tachyum.com/resources/whitepapers/2023/08/22/unprecedented-scale-and-efficiency-in-generative-ai-with-fp8-83-super-sparsity/.

关注 Tachyum(速生)

https://twitter.com/tachyum

https://www.linkedin.com/company/tachyum

https://www.facebook.com/Tachyum/

关于 Tachyum(速生)

Tachyum(速生)正在利用全球首款通用处理器Prodigy(神童)改变人工智能、高性能计算、公共云和私有云工作负载的经济性。Prodigy(神童)将CPU、GPGPU和TPU的功能整合到一个处理器中,为专业计算和通用计算提供业界领先的性能、成本和能效。使用 Prodigy(神童) 配置超大规模数据中心后,所有人工智能、高性能计算和通用应用程序都可以在相同的基础设施上运行,从而为公司节省数十亿美元的硬件、占地面积和运营费用。由于全球数据中心的排放导致气候不断变化,并且消耗了全球4%以上的电力–预计到2030年将达到10%–超低功耗的Prodigy(神童)通用处理器是以较低环境成本满足全球计算需求的一个潜在突破。Prodigy(神童)目前正处于批量生产前的最后测试和集成阶段,其原型已被快速增长的客户群所采用,强劲的采购订单预示着该公司很可能在 2024 年底首次公开募股。Tachyum(速生)公司在美国和斯洛伐克设有办事处。更多信息, 请浏览 https://www.tachyum.com/.