详解人工智能领域重大突破

发布时间：2021-05-22 21:43:42 所属栏目：大数据来源：互联网

导读：我们讨论15亿参数的 Generative Pretrained Transformer-2（GPT-2）的延迟发布是否合理，似乎还是去年的事情。如果你觉得其实没过多久（本文写于2020年），那必是因为: 臭名昭著的GPT-2模型是OpenAI在2019年2月第一次发布的，但直到9个月后才完全发布（虽然

我们讨论15亿参数的 Generative Pretrained Transformer-2（GPT-2）的延迟发布是否合理，似乎还是去年的事情。如果你觉得其实没过多久（本文写于2020年），那必是因为: 臭名昭著的GPT-2模型是OpenAI在2019年2月第一次发布的，但直到9个月后才完全发布（虽然在此之前已经有人复现了）。这样的发布计划诚然具有一定的尝试性，意在促进更负责任的开源发布，而非是尽力避免AI毁天灭地。但这并不妨碍批评者质疑这种阶段性发布是为了炒作和宣传的手段。

但现在这些声音都没啥意义了，因为OpenAI不仅在GPT-3中训练了一个更大的语言模型，而且你可以注册后通过其新API来访问。GPT-3相较于GPT-2就像比较苹果之于......嗯......葡萄干一样，因为模型就是大了那么多。GPT-2的参数只有15.42亿个（发布的较小版本为1.17亿、3.45亿和7.62亿），而全尺寸GPT-3有1750亿个参数。GPT-3还用了更大的数据集——570GB的文本来预训练，而GPT-2只有40GB。

近似尺寸对比, 以人类骨骼代表GPT-2, 霸王龙骨骼代表GPT-3。William Matthew的插图已进入公有领域，发表于1905年。以示GPT-3的参数比GPT-2多100多倍。

GPT-3是自然语言处理（NLP）领域迄今为止发布出来最大的Transformer模型，超过之前的记录——微软研究院Turing-LG的170亿参数——约10倍。这个模型显然包含很多的令人兴奋的点，而且由于Twitter和其他地方需要大量地演示GPT-3，OpenAI显然很乐意提供对新API的beta访问。这些demo好坏参半，都很有趣。其中一些demo自称产品即将发布，在某些情况下说不定是真的。但有一件事是肯定的，NLP已经从给豚鼠取名或生成狗屁不通科幻文到现在确实走了很长的路。

GPT-3加持的创意写作

毫无悬念，在GPT-3的加持下已经生成了几篇尚可的博客文章，因为吃螃蟹的人已经可以访问GPT-3的API并开始尝试了。几乎可以肯定的是，现在对GPT-3用于创意写作的最通透直观的综述是gwern.net的Gwern Branwen给出来的。多年来，Gwern一直关注着OpenAI的NLP发展，他称GPT-1在文本中模仿人类语言和风格的能力为"可爱"，GPT-2"令人印象深刻"，而GPT-3则是"可怕"。Gwern花了大量时间探索GPT-3及其前辈的能力，由此给出了对当前这代GPT模型的思考以及可能阻碍其发展的因素，值得一读。

OpenAI API目前并不方便直接微调或将GPT-3模型训练来完成特定任务。不过，Gwern认为，GPT-3仅仅通过与试用者进行类似对话的交互，就能模仿写作风格并生成不同类型的输出，这相当于一种新兴的元学习。这在GPT-2中是办不到的，Gwern认为transformer的注意力机制是产生这一能力的原因。

（编辑：常州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

如何使用大数据驱动业	交通领域的物联网如何
2022大数据十大关键词	区块链为大数据分析提