加入收藏 | 设为首页 | 会员中心 | 我要投稿 常州站长网 (https://www.0519zz.cn/)- 云渲染、网络安全、数据安全、数据分析、人体识别!
当前位置: 首页 > 大数据 > 正文

详解人工智能领域重大突破

发布时间:2021-05-22 21:43:42 所属栏目:大数据 来源:互联网
导读:我们讨论15亿参数的 Generative Pretrained Transformer-2(GPT-2)的延迟发布是否合理,似乎还是去年的事情。如果你觉得其实没过多久(本文写于2020年),那必是因为: 臭名昭著的GPT-2模型是OpenAI在2019年2月第一次发布的,但直到9个月后才完全发布(虽然

我们讨论15亿参数的 Generative Pretrained Transformer-2(GPT-2)的延迟发布是否合理,似乎还是去年的事情。如果你觉得其实没过多久(本文写于2020年),那必是因为: 臭名昭著的GPT-2模型是OpenAI在2019年2月第一次发布的,但直到9个月后才完全发布(虽然在此之前已经有人复现了)。这样的发布计划诚然具有一定的尝试性,意在促进更负责任的开源发布,而非是尽力避免AI毁天灭地。但这并不妨碍批评者质疑这种阶段性发布是为了炒作和宣传的手段。

但现在这些声音都没啥意义了,因为OpenAI不仅在GPT-3中训练了一个更大的语言模型,而且你可以注册后通过其新API来访问。GPT-3相较于GPT-2就像比较苹果之于......嗯......葡萄干一样,因为模型就是大了那么多。GPT-2的参数只有15.42亿个(发布的较小版本为1.17亿、3.45亿和7.62亿),而全尺寸GPT-3有1750亿个参数。GPT-3还用了更大的数据集——570GB的文本来预训练,而GPT-2只有40GB。

近似尺寸对比, 以人类骨骼代表GPT-2, 霸王龙骨骼代表GPT-3。William Matthew的插图已进入公有领域,发表于1905年。以示GPT-3的参数比GPT-2多100多倍。

GPT-3是自然语言处理(NLP)领域迄今为止发布出来最大的Transformer模型,超过之前的记录——微软研究院Turing-LG的170亿参数——约10倍。这个模型显然包含很多的令人兴奋的点,而且由于Twitter和其他地方需要大量地演示GPT-3,OpenAI显然很乐意提供对新API的beta访问。这些demo好坏参半,都很有趣。其中一些demo自称产品即将发布,在某些情况下说不定是真的。但有一件事是肯定的,NLP已经从给豚鼠取名或生成狗屁不通科幻文到现在确实走了很长的路。

GPT-3加持的创意写作

毫无悬念,在GPT-3的加持下已经生成了几篇尚可的博客文章,因为吃螃蟹的人已经可以访问GPT-3的API并开始尝试了。几乎可以肯定的是,现在对GPT-3用于创意写作的最通透直观的综述是gwern.net的Gwern Branwen给出来的。多年来,Gwern一直关注着OpenAI的NLP发展,他称GPT-1在文本中模仿人类语言和风格的能力为"可爱",GPT-2"令人印象深刻",而GPT-3则是"可怕"。Gwern花了大量时间探索GPT-3及其前辈的能力,由此给出了对当前这代GPT模型的思考以及可能阻碍其发展的因素,值得一读。

OpenAI API目前并不方便直接微调或将GPT-3模型训练来完成特定任务。不过,Gwern认为,GPT-3仅仅通过与试用者进行类似对话的交互,就能模仿写作风格并生成不同类型的输出,这相当于一种新兴的元学习。这在GPT-2中是办不到的,Gwern认为transformer的注意力机制是产生这一能力的原因。

(编辑:常州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读