奇绩大模型日报（4月 16日）

输入“/”快速插入内容

奇绩大模型日报（4月 16日）

推特

第一个超越GPT-4的开源模型！WizardLM 2在MT-Bench上超越了GPT-4，在Mixtral 8x22B基础上微调和偏好训练​

贡献人：

https://x.com/_philschmid/status/1779961137309548774

我们做到了!🙌第一个开放的大语言模型在MT-Bench上超越了@OpenAI的GPT-4(3月版)。WizardLM 2是在Mixtral 8x22B基础上微调和偏好训练的!🤯​

简而言之;

🧮基于Mixtral 8x22B(141B-A40 MoE)

🔓Apache 2.0许可

🤖第一个在MT-Bench上达到9.00以上的开放大语言模型

🧬使用了包括Evol-instruct数据分区和分阶段训练在内的多步合成数据流水线​

👨🔬使用了SFT → DPO → PPO

博客:https://wizardlm.github.io/WizardLM2/

模型:https://huggingface.co/microsoft/WizardLM-2-8x22B

论文:即将发布

50%

common.docs_name - LarkCCM_Docs_Menu_Image

50%

Deeplearning AI“量化基础”：学习如何量化几乎任何开源模型

贡献人：

https://x.com/AndrewYNg/status/1779905922602782752

 LLM 可能需要数 GB 的内存来存储,这限制了消费级硬件上可以运行的模型。但量化可以显著压缩模型,使开发人员可以使用更广泛的模型选择。您通常可以将模型大小减少 4 倍或更多,同时保持合理的性能。在我们由 Hugging Face 的 Younes Belkada 和 Marc Sun 讲授的新的短期课程"量化基础"中,您将:​

- 学习如何量化几乎任何开源模型

- 使用 int8 和 bfloat16(Brain float 16)数据类型,利用 PyTorch 和 Hugging Face Transformers 库加载和运行 LLM  ​

- 深入研究线性量化的技术细节,将 32 位浮点数映射到 8 位整数​

随着模型变得越来越大,量化对于使模型实用和易于访问变得越来越重要。请在此处查看课程:https://deeplearning.ai/short-courses/quantization-fundamentals-with-hugging-face/

50%

50%

Gemini API 指南：快速测试 100 万字符上下文和原生多模态支持

贡献人：

https://x.com/OfficialLoganK/status/1779902259335209102

Gemini API 指南正在很好地成型(我们刚刚突破了 1000 个 star)。如果你想快速测试 100 万字符上下文和原生多模态支持,可以看看这个指南!​

欢迎使用 Gemini API 指南

这是 Gemini API 的指南和示例集合,包括编写提示和使用 API 不同功能的快速入门教程,以及您可以构建的示例。​

50%

common.docs_name - LarkCCM_Docs_Menu_Image

50%

斯坦福大学人工智能中心发布2024 年人工智能指数报告

贡献人：

https://x.com/LuizaJarovsky/status/1779932458307248403

斯坦福大学人工智能中心发布了 2024 年人工智能指数报告,这是人工智能数据和洞察力的权威来源之一。以下是其 10 大要点:​

50%

common.docs_name - LarkCCM_Docs_Menu_Image

50%