分享
奇绩大模型日报(9月 14-15日)
输入“/”快速插入内容
奇绩大模型日报(9月 14-15日)
用户150
用户150
用户6465
用户6465
用户5294
用户5294
用户1188
用户1188
用户8534
用户8534
用户5537
用户5537
2024年9月18日修改
推特
Karpathy探讨LLMs的真正用途:语言只是历史遗留,核心在于符号建模
https://x.com/karpathy/status/1835024197506187617
有点悲伤和困惑的是,LLMs(“大语言模型”)和语言的关系其实不大,这只是历史遗留问题。它们其实是用于对符号流进行统计建模的通用技术。更好的名字可能是自回归变压器或类似的东西。
它们并不在乎这些符号是否恰好代表了文本片段。它们同样可以代表图像小块、音频片段、动作选择、分子或其他任何东西。如果你能把问题简化为对符号流的建模(针对任何离散符号集的任意词汇),你就可以“扔给LLM处理”。
事实上,随着LLM技术栈变得越来越成熟,我们可能会看到大量问题逐渐收敛到这种建模范式。也就是说,问题被固定在“下一个符号预测”,只是符号的使用和含义根据不同领域发生变化。
如果是这样的话,也有可能深度学习框架(例如PyTorch及其类似工具)对于大多数问题来说过于通用了。成千上万的操作和层可以随意重新配置,但如果80%的问题只需要使用LLM,这些复杂的配置还有必要吗?
我并不完全认同这个观点,但我认为它有一半是对的。
50%
50%
Blaho分享:OpenAI o1团队AMA内容总结
https://x.com/btibor91/status/1834686946846597281
我们今天在与OpenAI o1团队的AMA小时中学到的内容总结:
模型名称和推理范式
•
OpenAI o1 代表AI能力的新层次,计数器重置为1
•
“预览版”表示这是完整版模型的早期版本
•
“Mini”代表o1模型的缩小版,优化了速度
•
o - 代表OpenAI
•
o1 不是“系统”,它是一个在给出最终答案前会生成长推理链的模型
•
o1的图标象征着拥有非凡能力的外星人
o1模型的大小和性能
•
o1-mini比o1-preview小得多且速度更快,因此未来会向免费用户提供
•
o1-preview 是o1模型的早期检查点,既不大也不小
•
o1-mini在STEM任务上表现更好,但世界知识有限
•
在某些任务上,特别是与代码相关的任务上,o1-mini表现优于o1-preview
•
o1的输入符号与GPT-4o一样,使用相同的分词器
•
与o1-preview相比,o1-mini可以探索更多的推理链
输入符号上下文和模型能力
•
o1模型即将支持更大的输入上下文
•
与GPT-4o相比,o1模型在处理较长和更开放的任务时不需要像以前那样拆分输入
•
o1可以在提供答案前生成长推理链,与之前的模型不同
•
当前没有办法在推理过程中暂停来添加更多上下文,但正在为未来的模型探索这一功能
工具、功能和即将推出的特性
•
o1-preview 目前不使用工具,但计划支持函数调用、代码解释器和浏览
•
工具支持、结构化输出和系统提示将在未来更新中添加
•
用户未来可能可以控制思考时间和符号限制
•
正在计划启用流式输出,并在API中考虑推理进展
•
o1的多模态功能已内建,旨在在诸如MMMU之类的任务中达到最先进的性能
推理链(CoT)
•
o1在推理过程中生成隐藏的推理链
•
目前没有计划向API用户或ChatGPT展示推理链符号
50%
50%