“我们从 Reddit 上收集了 800 万个链接”

日期：2024-12-20 作者：caijiyuan caijiyuan 评论：0 移动：http://fabua.ksxb.net/mobile/news/4581.html

核心提示：之前只有少部分程序员才能摸到的、门槛高难度更高的 OpenAI 神仙文本生成器 GPT-2，终于有了普通人能使用的 Web 版本！在这个由

之前只有少部分程序员才能摸到的、门槛高难度更高的 OpenAI 神仙文本生成器 GPT-2，终于有了普通人能使用的 Web 版本！

在这个由加拿大工程师 Adam King 制作的网站上，任何人都能调教简化版的 GPT-2——它能够识别各种各样的输入，从新闻、歌词、诗歌、食谱、代码，甚至到《指环王》和《复仇者联盟》主题，只要给出一个开头，GPT-2 就能完美地接上下茬。

在网站上，我们可以看到目前 GPT-2 掌握的主题似乎有点过于丰富：

而在面对其他类型的输入文本时，GPT-2 同样没有让人失望：
OpenAI 加州实验室工程副总裁 David Luan 在接受 The Verge 采访时表示，有一次，他们命令 GPT-2 以“垃圾回收为什么对世界有害”为题写文章，结果 GPT-2 给出了一篇有理有据令人信服的论文。“尽管这个论点和普世认知相悖，但它还是写出了非常合理的解释”， Luan 说道，“这篇东西完全可以提交给 SAT（美国高考），然后拿高分。”
写作水平优于80%美国高中生的 GPT-2，到底是个什么神仙模型？
为了让 GPT-2 变得足够聪明，工程师喂给了它 800 万个网页链接。这些链接必须精挑细选：要内容丰富多样，要由真人书写编辑，要语言足够精彩。
最终，他们从 Reddit 上选取了 800 万条 Karma 值（相当于论坛里的等级）大于 3 的高赞链接，然后抓取了其中的文本部分，形成了一个 40G 大小的紧凑训练数据集。
在整个无监督训练过程中，工程师没有对 GPT-2 进行任何有针对性的培训。这样一个“放养”的 AI（又叫 Zero-shot 学习法），却在盲测中突破了多项记录，拿下了世界第一。
比起 GPT-2，此前采用机器学习的 AI 都只能算是“狭隘的 AI”，仅能处理特定的任务。
例如 OpenAI 的 DotA 梦之队能战胜人类最强玩家，在《星际争霸》中却连买兵都不会；DeepMind 的AlphaGo 能击败围棋冠军，但它下五子棋的技术可能还不如小学生。但 GPT-2 的表现证明，人类有能力训练出更加泛化的 AI。
但在 OpenAI 前工程师 Ryan Lowe 看来，GPT-2 表现出色的原因主要来源于更大的数据库。GPT-2 的参数数量和训练数据量都是上一代 GPT 的10倍。
与此同时 GPT-2 距离工程师梦想中的万能 AI 仍有一段距离。
在生成文本时，尽管语法和拼写都无懈可击，一些小问题仍然会暴露 GPT-2 的真实身份：例如文本重复，前后矛盾（例如，有时模型会输出“在水下发生火灾”），突然切换话题。
OpenAI 预测，在未来，GPT-2 可以成为写作助手、残障人士对话辅助 AI，同样的模型还能用于语言之间的无监督翻译和建立更准确的语音识别系统。
然而，OpenAI 却暂时不打算公开 GPT-2 的源代码。
“大型通用语言模型可能会产生重大的社会影响，”OpenAI 在文档中写道，“我们将会发布一个小型模型供研究人员进行实验。”
“我们很期待到时候会发生什么，” OpenAI 工程师 Luan 说，“同时也有点儿害怕。”

本文地址：http://fabua.ksxb.net/news/4581.html 海之东岸资讯 http://fabua.ksxb.net/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

标签： 工程师模型文本一个

更多>同类最新资讯

0 条相关评论

文章列表

相关文章

最新动态

推荐图文

最新资讯

点击排行

• OpenAI工程师：本周令人兴奋／调手机时间恢复过	• 从汽车工程师之家获悉，到2024年底为止，大众集
• “我辞掉了 FAANG 大厂的工程师工作，因为 AI	• 小鹏汽车2025社招自动泊车算法工程师面试题
• 2022年深圳助理工程师评定时间条件流程分别是什	• 安全工程师考试题型及分数线详解
• 2024年广西初级注册安全工程师准考证打印时间：	• 【安全工程师报】2025年成人本科报考条件及系统
• 化工安全工程师证报考条件	• 四川初级安全工程师证书报名要求

翡翠杠杆思维，2025必	【信息速递】北京大学
从“蹲下去找茬”到“	省第十三届少儿艺术花
李连杰自曝常被网友挖	重磅！赴美旅游要交15
擅造风口的卡萨帝冰箱	泰安唯一参赛选手！这
逝者｜许倬云生前最	皇马中场核心遭低价挖
早安北京0804：注意防	贯彻中央城市工作会议
第十三届海峡青年荟·	广西通报：“亮证女”
【信息速递】北京大学	罕见的豆瓣9.0，不愧
《扫毒风暴》卢少骅最	华米OV新款大折叠集体
山西金融：上半年支持