分享
奇绩大模型日报(7月 19日)
输入“/”快速插入内容
奇绩大模型日报(7月 19日)
用户150
用户150
用户1188
用户1188
用户5537
用户5537
用户8534
用户8534
用户887
用户887
用户6465
用户6465
2024年7月22日修改
资讯
GPT-4o mini背后团队揭秘:9人团华人面孔过半,清华北大同济校友在列
https://mp.weixin.qq.com/s/64tH59e5u0Vm1b6ywoaZUg
今天凌晨,OpenAI 突然发布了 GPT-4o 的迷你版本 ——
GPT-4o mini
。这个模型替代了原来的 GPT-3.5,作为免费模型在 ChatGPT 上提供。其 API 价格也非常美丽,每百万输入 token 仅为 15 美分,每百万输出 token 60 美分, 比之前的 SOTA 模型便宜一个数量级,比 OpenAI 此前最便宜的 GPT-3.5 Turbo 还要便宜 60% 以上。
50%
50%
小模型卷起来了:Mistral联合英伟达开源12B小模型,128k上下文
https://mp.weixin.qq.com/s/7oSxdFyqJ7MUpbfuNB_n5Q
比 OpenAI 官宣 GPT-4o mini 早几个小时,被誉为「欧洲版 OpenAI」的 Mistral AI 也官宣了一个小模型 ——
Mistral NeMo
。
这个小模型由 Mistral AI 和英伟达联合打造,
参数量为 120 亿(12B),上下文窗口为 128k
。
Mistral AI 表示,Mistral NeMo 的推理能力、世界知识和编码准确性在同类产品中都是 SOTA 级别的。由于 Mistral NeMo 依赖于标准架构,因此易于使用,可在任何使用 Mistral 7B 的系统中成为替代品。
50%
50%
华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由
https://mp.weixin.qq.com/s/Qte9x8yygmC2aiGEk7AYXg
论文共同一作为李婧博士,孙志杰和林大超博士,主要成员来自GTS AI计算Lab,主要研究及落地领域包含LLM训推加速、AI训练保障和图计算。
MoE 因其在训推流程中低销高效的特点,近两年在大语言模型领域大放异彩。作为 MoE 的灵魂,专家如何能够发挥出最大的学习潜能,相关的研究与讨论层出不穷。此前,华为 GTS AI 计算 Lab 的研究团队提出了 LocMoE ,包括新颖的路由网络结构、辅助降低通信开销的本地性 loss 等,引发了广泛关注。
50%
50%
「数据墙」迫近?苹果OpenAI等巨头走投无路,被迫「偷师」YouTube视频!
https://mp.weixin.qq.com/s/fNL8MOGOAWLvN0sMy-i_Lw
AI科技巨头的「数据荒」到底该拿什么拯救?
为了训练生成式AI,尤其是在scalling law的支配之下,互联网上现存的内容早已不能满足LLM越来越大的胃口
,It's soooo hungry for data!
「数据荒」的直接结果,就是科技巨头对GenAI
()
的训练数据越来越「饥不择食」。不仅仅是书籍、文章,甚至Instagram、X、Fackbook等各种社交平台上的内容也是来者不拒。
前段时间和OpenAI签合作协议,而且坑了谷歌搜索、导致Gemini教唆网友给披萨加胶水的Reddit也是其中之一
。为了规避潜在的法律纠纷,GPT、Gemini、Claude等商业模型在发布时往往选择对训练数据「三缄其口」,绝口不提及其来源、构成、使用许可等信息。然而,这个问题早就引起了创作者和各种媒体平台越来越强烈的不满。
50%
50%
推特
Mckay Wrigley:软件开发的未来模样
https://x.com/mckaywrigley/status/1813695460600844362?s=46&t=GRStLXDcUNuun8J5Noyw4Q