奇绩大模型日报（5月 31日）

用户150

用户1188

用户5537

用户4513

用户8534

用户887

2024年6月1日修改

推特

Karpathy谈评估：从SEAL排名到训练集的泄露

https://x.com/karpathy/status/1795873666481402010

很好,一个与 @lmsysorg 在评估大语言模型方面的有力竞争者加入了对话。大语言模型的评估正在改进,但不久前它们的状态还非常黯淡,定性体验与定量排名往往不一致。这是因为建立良好的评估方法非常困难 - 在特斯拉,我可能有1/3的时间花在数据上,1/3花在评估上,1/3花在其他所有事情上。评估必须全面、有代表性、高质量,并衡量梯度信号(即不能太容易,也不能太难),在定性和定量评估一致之前,有很多细节需要考虑和处理。我推荐的一些有趣的细节可能是Open LLM Leaderboard MMLU的说明:https://github.com/huggingface/blog/blob/main/open-llm-leaderboard-mmlu.md... 另一个不太明显的部分是,任何开放(非私有)的测试数据集不可避免地会泄露到训练集中。这是人们强烈直觉怀疑的事情,也是最近这个GSM1k轰动一时的原因 https://arxiv.org/html/2405.00332 即使大语言模型开发人员尽了最大努力,防止测试集渗透到训练集中(并记住答案)也是困难的。当然,你可以尽最大努力过滤掉完全匹配的内容。你还可以用 n-gram 重叠或类似方法过滤掉近似匹配。但是你如何过滤掉合成数据重写,或与数据相关的在线讨论?一旦我们开始常规训练多模态模型,你如何过滤掉数据的图像/截图?你如何防止开发人员例如对测试集进行向量嵌入,并专门针对在嵌入空间中与测试集高度一致的数据进行训练?最后一个组成部分是,并非所有我们关心的大语言模型任务都可以自动评估(例如总结等),此时你希望让人类参与进来。当你这样做时,你如何控制所涉及的所有变量,例如人们对实际答案、长度、风格的关注程度,以及如何处理拒绝等。总之,良好的评估出人意料地困难,需要大量的工作,但相当重要,所以我很高兴看到更多的组织加入努力,做好这项工作。

50%

common.docs_name - LarkCCM_Docs_Menu_Image

50%

Perplexity Pages：将您的研究转化为视觉吸引人的文章

https://x.com/perplexity_ai/status/1796203494401040846

我们很兴奋地推出了 Perplexity Pages,这是一种将您的研究转化为视觉吸引人的文章的简单方法。通过格式化的图像和章节,Pages 让您可以分享关于任何主题的深入知识。现在 Pro 用户可以使用,并将很快向所有用户推广!​

50%

Daniel Han分享英伟达研究报告笔记：4nm的研究推理芯片、指数尾数等​

https://x.com/danielhanchen/status/1796253349932843214

我从NVIDIA研究报告中的笔记:

1.
NVIDIA有一个4nm的研究推理芯片,每瓦特可达96 int4 TOPs,而Blackwell的芯片每瓦特可达20 TOPs。​

2.
B200的float4是指数(exponent)为2,尾数(mantissa)为2?也许我听错了?我以为指数+尾数=3。 ​

3.
加速不是来自摩尔定律(提升3倍),而是来自更小的数值表示。从fp32到f4可提升32倍。但最近的LLMs物理学论文表明,int4的效果差2倍,这限制了加速的上限。1.58bit不会有帮助。​

4.
Tensor Cores / 复杂指令HMMA的速度提高了13倍,能耗更低。​

5.
NVIDIA正在研究从2:4稀疏性到2:8稀疏性?​

演讲链接:https://youtu.be/gofI47kfD28?si=41UIMkpMCyb_qWqA

LLMs物理学论文:https://arxiv.org/abs/2404.05405

50%

非常好模型，使我的大脑旋转：通过Era3D创造3D肖像

https://x.com/xxlong0/status/1796229904843030836

只需一张图片,使用我们强大的Era3D模型创建您的3D肖像。@ylecun​

Era3D是一个新的高分辨率跨域扩散模型,可以生成512x512的彩色图像和法线贴图(Wonder3D和Syncdreamer只支持256x256分辨率)。有了这样的2D表示,就可以创建如此详细的3D重建。非常感谢@pengli_hkust的努力。​

重建部分无法集成到Huggingface演示中。访问我们的Github仓库以获得完整体验。​

Github仓库:https://github.com/pengHTYX/Era3D

网页:https://penghtyx.github.io/Era3D/

用于MV颜色和法线预测的Huggingface演示:https://huggingface.co/spaces/pengHTYX/Era3D_MV_demo

50%

奇绩大模型日报（5月 31日） ​

奇绩大模型日报（5月 31日）