OpenAI新研究破解GPT-4大脑，分解1600万个特征打开“黑匣子”，Ilya 、Jan Leike也参与了！（gpp解锁）

原标题：OpenAI新研究破解GPT-4大脑，分解1600万个特征

打开“黑匣子”，Ilya 、Jan Leike也参与了！

文章来源：夕小瑶科技说

内容字数：0字

夕小瑶科技说原创作者 | 付奶茶

6月7日凌晨，OpenAI在官网发布了一个新的研究成果，首次破解GPT-4的神经网络活动。通过改进大规模训练稀疏自动编码器将GPT-4的内部表示分解为 1600 万个特征。而且，前段时间离职的Ilya Sutskever、Jan Leike也是作者之一！

这不是破译了GPT-4的大脑吗！

听起来好像很有意思，于是奶茶赶紧搬运来，让我们一起来看下！

稀疏自编码器神经网络一直被视为人工智能领域的“黑匣子”，其运作机制复杂难懂，与机械设备不同，神经网络的设计和训练充满了未知。在设计和训练神经网络时，对最终结果的理解非常有限。

为了揭开这个“黑匣子”，OpenAI的研究人员一直在寻找神经计算的基本构建块。然而，语言模型内部的神经激活模式复杂多变，似乎同时代表了多个概念，并且这些激活是密集的，每次输入都会触发多个激活。这与现实世界中遇到的稀疏概念形成鲜明对比，在任何给定情境中，只有少数几个概念是相关的。

于是，OpenAI研究团队开始了关于从语言模型中提取可解释特征的研究：

论文标题：Scaling and evaluating sparse autoenco

文章来源：夕小瑶科技说

作者微信：xixiaoyaoQAQ

作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189