分享
奇绩大模型日报(9月 10日)
输入“/”快速插入内容
奇绩大模型日报(9月 10日)
飞书用户150
飞书用户1188
飞书用户5294
飞书用户8534
飞书用户5537
飞书用户6465
2024年9月11日修改
资讯
苹果发布A18与A18 Pro仿生芯片:AI性能成焦点
https://mp.weixin.qq.com/s/4kVO390n-RCFogoP1cLLfg
苹果在新发布的iPhone 16系列中首次引入了以Apple Intelligence(苹果智能)为核心的生成式AI功能,搭载A18系列仿生芯片。这些芯片采用了第二代3nm工艺,具备更高能效和性能。A18和A18 Pro均配备6核CPU(2个性能核心+4个能效核心)和16核神经网络引擎,能高效运行大规模AI模型。
A18 Pro相较A18性能更强,内存带宽提升17%,支持6核GPU,光线追踪性能是上一代的2倍,适合运行高负载的3A游戏。A18 Pro的CPU拥有更大的缓存,能效提升20%,适合运行复杂任务。
A18系列仿生芯片支持更快速的神经网络计算,A18 Pro每秒可进行35万亿次操作(35 TOPS),是目前智能手机中最强的CPU。与A16芯片相比,A18的机器学习速度提升了2倍,游戏性能媲美主机级。其5核GPU在图形处理、AI功能和拍摄性能上表现出色。
除手机芯片外,苹果还发布了S10 SiP手表芯片和H2耳机芯片。S10 SiP搭载4核神经网络引擎,支持多项检测功能;H2芯片增强了音频和通话体验,主动降噪功能相比上一代提升至2倍,提供出色的3D音效。
苹果自研芯片在移动领域持续领跑,A18与A18 Pro的AI与游戏性能尤为突出,为未来2nm工艺的A19仿生芯片铺路。
50%
50%
Llama 3蒸馏到Mamba模型,推理速度提升至1.6倍!
https://mp.weixin.qq.com/s/2oyeCdlqKaeQATje--U8qg
Together AI通过蒸馏技术,将Transformer模型与Mamba架构结合,成功提高推理速度的同时,保持甚至超过原始模型的性能。该项目由FlashAttention的作者Tri Dao参与,展示了将Transformer的复杂计算简化为线性RNN的可能性,并提出了推测解码算法加速推理过程。
Transformer到Mamba的蒸馏过程
1.
初始化
:首先,作者发现Transformer的注意力机制与RNN的计算存在相似性,基于此将Transformer的注意力机制线性化,作为蒸馏的初步步骤。
2.
三阶段蒸馏
:
◦
伪标签蒸馏
:使用预训练的Transformer生成伪标签,Mamba学生模型以这些标签进行训练,结合KL散度和交叉熵损失。
◦
监督微调
:在指令数据集上进行训练,如OpenHermes 2.5。
◦
人类反馈优化
:基于奖励模型,使用PPO算法优化模型性能。
在8块80G A100 GPU上,整个蒸馏过程仅耗时不到五天,最终生成了Transformer-Mamba混合模型。
推理加速:推测解码算法
推测解码算法通过使用轻量的Draft模型预测多个token,再由Verifier模型验证,大幅提升解码并行性和生成效率。这个方法在2.8B和7B参数规模的Mamba模型上推理速度提升了1.7-2.6倍。尤其在Zephyr和Llama混合模型上,推理速度分别提升1.8倍和1.6倍。
实验结果
1.
性能表现
:在单轮和多轮对话任务(如AlpacaEval、MT-Bench)上,混合模型与Llama-3相比表现出色,1:1混合模型效果最佳。
2.
推理加速
:Llama 3混合模型的推理速度提升了1.6倍,且在NLP任务上表现优异,在GSM8K和CRUX任务上甚至超过了Instruct模型。
Together AI的这项研究展示了混合Transformer与RNN架构的潜力,为未来大模型的优化与加速提供了新方向。
50%
50%
AMD的颠覆性战略:放弃旗舰游戏显卡,专注AI和生态扩展
https://mp.weixin.qq.com/s/FNW5sS4qVDbyILW-JSNV_g
短短几天内,AMD连续宣布了两项重要的战略转型:一是放弃旗舰游戏显卡,转而主攻中低端市场;二是统一现有的两种GPU微架构——RDNA和CDNA。这两项策略背后的共同目标是扩大AMD的生态系统,以此挑战英伟达CUDA的主导地位。
技术细节亮点:
1.
统一GPU架构
:AMD将RDNA(面向消费市场)和CDNA(面向数据中心)统一为新的UDNA架构,目标是通过统一架构提升优化效率,吸引更多开发者。Jack Huynh承认,RDNA架构的内存层次结构设计存在问题,导致每次改动都需重新优化。UDNA架构的推出将解决这一问题,并提升未来三代产品的持续优化能力。
2.
AI加速能力提升
:现有RDNA架构中AI加速能力有限,尤其是在FP16格式计算优化方面依赖WMMA指令,未来UDNA架构预计将为桌面GPU引入完整的张量运算支持,使桌面和数据中心GPU架构一致。这不仅能提升AI任务处理效率,还能推动AMD云到客户端的全方位战略。
3.
开源生态与CUDA对标
:AMD希望通过ROCm软件堆栈与英伟达的CUDA抗衡,目标是在未来吸引400万开发者。这一策略依赖于开源社区的支持和AMD在软件优化方面的简化工作,加速整个生态的扩展。然而,为了推动这一生态发展,游戏和其他专业软件的优化被部分牺牲。
4.
放弃旗舰显卡市场
:AMD历史上多次未能成功进军高端显卡市场,现决定转向中低端市场,停止与英伟达旗舰显卡的直接竞争。市场预测,英伟达可能会借此自由定价其下一代旗舰产品,这对消费者而言并非利好消息。
总结来看,AMD此次通过技术架构的统一与生态规模的扩展,意图在AI与中低端显卡市场实现突破,重塑与英伟达的竞争格局。
50%
50%
自博弈方法在强化学习中的应用综述
https://mp.weixin.qq.com/s/oMY0O0OIVYJc04zkoMzgcQ