励志箴言
成功不是将来才有的,而是从决定去做的那一刻起,持续累积而成。
随机文章
- 普通车型加1万!宝骏云朵灵犀智驾版上市:大疆提供、12.58万起!
- 创纪录!苹果A17 Pro最新跑分:骁龙8Gen 3追不上 单核快把英特尔i9拉下马!
- 不用再怕晕车了!华为防晕车专利公布:眼随身动!
- 实测苹果手机完全无法用华为充电器 小米OPPO一切正常!
- 华为将停止采购高通芯片 郭明錤:阿斯麦或将EUV光刻机出货量预测大幅下调约20-30%!
- 刘诗诗回应不上常驻综艺 背后真相是什么?
- 鸿星尔克主播拿鞋用蜂花洗头发 蜂花直播间也摆上了鸿星尔克的鞋子!
- 可折叠手机算啥?可折叠激光电视来了 海信首发!
- USB-C接口不限制!iPhone 15充电无解:最高支持27W!
- 报告称近4成职位工资超10000元 低于6000元的职位占比仅有18.4%!
据媒体报道,NVIDIA的最新研究可能彻底改变AI的未来,其研究团队提出了一种名为归一化Transformer(nGPT)的新型神经网络架构。
这一架构在超球面(hypersphere)上进行表示学习,能够显著提升大型语言模型(LLM)的训练速度,最高可达20倍,同时保持了模型的精度。
nGPT架构的核心在于将所有向量,包括嵌入、多层感知机(MLP)、注意力矩阵和隐藏状态,归一化为单位范数。
这种归一化处理使得输入的token在超球面表面上移动,每一层模型都通过位移来贡献最终的输出预测。
实验结果表明,nGPT在训练时所需的步骤比标准Transformer模型减少了4到20倍,具体加速效果取决于序列长度。
例如,在1k上下文中,训练速度提高了4倍;在4k上下文中,提高了10倍;而在8k上下文中,更是提高了20倍。
研究人员指出,nGPT的优化路径从超球面上的点开始,通过位移来贡献最终的输出预测,其中位移量由MLP和注意力模块定义。
这种方法不仅提高了训练速度,还增强了模型的稳定性。