分享
奇绩大模型日报(4月 16日)
输入“/”快速插入内容
奇绩大模型日报(4月 16日)
推特
第一个超越GPT-4的开源模型!WizardLM 2在MT-Bench上超越了GPT-4,在Mixtral 8x22B基础上微调和偏好训练
贡献人:
用户8534
用户8534
https://x.com/_philschmid/status/1779961137309548774
我们做到了!🙌第一个开放的大语言模型在MT-Bench上超越了@OpenAI的GPT-4(3月版)。WizardLM 2是在Mixtral 8x22B基础上微调和偏好训练的!🤯
简而言之;
🧮基于Mixtral 8x22B(141B-A40 MoE)
🔓Apache 2.0许可
🤖第一个在MT-Bench上达到9.00以上的开放大语言模型
🧬使用了包括Evol-instruct数据分区和分阶段训练在内的多步合成数据流水线
👨🔬使用了SFT → DPO → PPO
博客:
https://wizardlm.github.io/WizardLM2/
模型:
https://huggingface.co/microsoft/WizardLM-2-8x22B
论文:即将发布
50%
50%
Deeplearning AI“量化基础”:学习如何量化几乎任何开源模型
贡献人:
用户8534
用户8534
https://x.com/AndrewYNg/status/1779905922602782752
LLM 可能需要数 GB 的内存来存储,这限制了消费级硬件上可以运行的模型。但量化可以显著压缩模型,使开发人员可以使用更广泛的模型选择。您通常可以将模型大小减少 4 倍或更多,同时保持合理的性能。在我们由 Hugging Face 的 Younes Belkada 和 Marc Sun 讲授的新的短期课程"量化基础"中,您将:
- 学习如何量化几乎任何开源模型
- 使用 int8 和 bfloat16(Brain float 16)数据类型,利用 PyTorch 和 Hugging Face Transformers 库加载和运行 LLM
- 深入研究线性量化的技术细节,将 32 位浮点数映射到 8 位整数
随着模型变得越来越大,量化对于使模型实用和易于访问变得越来越重要。请在此处查看课程:
https://deeplearning.ai/short-courses/quantization-fundamentals-with-hugging-face/
50%
50%
Gemini API 指南:快速测试 100 万字符上下文和原生多模态支持
贡献人:
用户8534
用户8534
https://x.com/OfficialLoganK/status/1779902259335209102
Gemini API 指南正在很好地成型(我们刚刚突破了 1000 个 star)。如果你想快速测试 100 万字符上下文和原生多模态支持,可以看看这个指南!
欢迎使用 Gemini API 指南
这是 Gemini API 的指南和示例集合,包括编写提示和使用 API 不同功能的快速入门教程,以及您可以构建的示例。
50%
50%
斯坦福大学人工智能中心发布2024 年人工智能指数报告
贡献人:
用户8534
用户8534
https://x.com/LuizaJarovsky/status/1779932458307248403
斯坦福大学人工智能中心发布了 2024 年人工智能指数报告,这是人工智能数据和洞察力的权威来源之一。以下是其 10 大要点:
50%
50%