奇绩大模型日报（6月 11日）

用户150

用户5537

用户1188

用户5247

用户4513

2024年6月12日修改

资讯

苹果智能炸裂登场：直接GPT-4o加持，全家桶都上生成式AI，Siri脱胎换骨​

https://mp.weixin.qq.com/s/sCD2DKx9-rroCoTh1bSvBQ

不止 Siri 或 iPhone，整个苹果，向前迈进了一大步。北京时间 6 月 11 日凌晨，苹果全球开发者大会 WWDC 在库比蒂诺的 Apple Park 正式召开。这场大会，苹果如我们所愿终于带来了覆盖全线产品的生成式 AI 技术，与此同时还有些预料之外的消息。「苹果的目标一直是构建以人为本，最为易用方便的个人设备，提升人们的生活效率。多年来我们一直在应用人工智能、机器学习技术来实现目标，」苹果 CEO 蒂姆・库克说道。「最近大语言模型等 AI 突破，让我们有机会把体验推向新的高度。」​

50%

common.docs_name - LarkCCM_Docs_Menu_Image

50%

刚刚，OpenAI 正式宣布聘请新的 CFO 与 CPO！

https://mp.weixin.qq.com/s/DyisRxJtXqAGEnzOjTF7Cw

OpenAI 正式宣布聘请了 Sarah Friar 和 Kevin Weil 分别担任 CFO 以及 CPO 职务。CEO Sam Altman 表示，这将使 OpenAI 能够扩大业务规模，为下一阶段的增长制定战略，并确保我们的团队拥有继续发展所需的资源。​

50%

这家世界模型公司发布中国版Sora级视频生成大模型，走向世界模型打造新一代数据引擎​

https://mp.weixin.qq.com/s/TwEHagjfMQU73rPmGBWPag

Sora 炸场之后，视频生成持续广受关注，不断掀起新的热潮。近日，在奇绩创坛路演日上，世界模型公司「极佳科技」联合清华大学自动化系正式发布中国首个超长时长、高性价比、端侧可用的 Sora 级视频生成大模型「视界一粟 YiSu」，引起社会各界广泛的反响和关注。​

50%

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

https://mp.weixin.qq.com/s/gdT0q5HJ9Fw5QrbBihI1vA

近些年，语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型（LLM）有能力解决多种不同的任务，它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入，但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通，那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域，但视觉与语言之间的连接尚未被彻底打通。举些例子，大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视觉语言模型（VLM）依然难以理解属性和顺序。它们往往会忽略输入 prompt 的某些部分，因此为了得到理想结果，用户常常需要在提示工程上费心费力。还有些模型会产生幻觉，产出无用或不相关的内容。因此，人们依然在大力开发稳定的模型。​

50%

用神经架构搜索给LLM瘦身，模型变小，准确度有时反而更高

https://mp.weixin.qq.com/s/_cKq4a3uM4r6s5P5s9mWaA

大型语言模型（LLM）的一个主要特点是「大」，也因此其训练和部署成本都相当高，如何在保证 LLM 准确度的同时让其变小就成了非常重要且有价值的研究课题。对此，研究社区已经提出了多种多样的方法，比如剪枝、稀疏化、量化等，它们的效果也各不一样。近日，Intel Labs 发布了一项研究成果，宣称可使用神经架构搜索（NAS）高效地为 LLM 「瘦身」。他们基于 LLaMA2-7B 模型的实验表明，该技术不仅能降低模型大小，有时甚至还能让模型的准确度获得提升！​

50%

奇绩大模型日报（6月 11日） ​

奇绩大模型日报（6月 11日）