“我们从 Reddit 上收集了 800 万个链接”

“我们从 Reddit 上收集了 800 万个链接”

2024-12-20 19:28

之前只有少部分程序员才能摸到的、门槛高难度更高的 OpenAI 神仙文本生成器 GPT-2，终于有了普通人能使用的 Web 版本！

在这个由加拿大工程师 Adam King 制作的网站上，任何人都能调教简化版的 GPT-2——它能够识别各种各样的输入，从新闻、歌词、诗歌、食谱、代码，甚至到《指环王》和《复仇者联盟》主题，只要给出一个开头，GPT-2 就能完美地接上下茬。

在网站上，我们可以看到目前 GPT-2 掌握的主题似乎有点过于丰富：

而在面对其他类型的输入文本时，GPT-2 同样没有让人失望：
OpenAI 加州实验室工程副总裁 David Luan 在接受 The Verge 采访时表示，有一次，他们命令 GPT-2 以“垃圾回收为什么对世界有害”为题写文章，结果 GPT-2 给出了一篇有理有据令人信服的论文。“尽管这个论点和普世认知相悖，但它还是写出了非常合理的解释”， Luan 说道，“这篇东西完全可以提交给 SAT（美国高考），然后拿高分。”
写作水平优于80%美国高中生的 GPT-2，到底是个什么神仙模型？
为了让 GPT-2 变得足够聪明，工程师喂给了它 800 万个网页链接。这些链接必须精挑细选：要内容丰富多样，要由真人书写编辑，要语言足够精彩。
最终，他们从 Reddit 上选取了 800 万条 Karma 值（相当于论坛里的等级）大于 3 的高赞链接，然后抓取了其中的文本部分，形成了一个 40G 大小的紧凑训练数据集。
在整个无监督训练过程中，工程师没有对 GPT-2 进行任何有针对性的培训。这样一个“放养”的 AI（又叫 Zero-shot 学习法），却在盲测中突破了多项记录，拿下了世界第一。
比起 GPT-2，此前采用机器学习的 AI 都只能算是“狭隘的 AI”，仅能处理特定的任务。
例如 OpenAI 的 DotA 梦之队能战胜人类最强玩家，在《星际争霸》中却连买兵都不会；DeepMind 的AlphaGo 能击败围棋冠军，但它下五子棋的技术可能还不如小学生。但 GPT-2 的表现证明，人类有能力训练出更加泛化的 AI。
但在 OpenAI 前工程师 Ryan Lowe 看来，GPT-2 表现出色的原因主要来源于更大的数据库。GPT-2 的参数数量和训练数据量都是上一代 GPT 的10倍。
与此同时 GPT-2 距离工程师梦想中的万能 AI 仍有一段距离。
在生成文本时，尽管语法和拼写都无懈可击，一些小问题仍然会暴露 GPT-2 的真实身份：例如文本重复，前后矛盾（例如，有时模型会输出“在水下发生火灾”），突然切换话题。
OpenAI 预测，在未来，GPT-2 可以成为写作助手、残障人士对话辅助 AI，同样的模型还能用于语言之间的无监督翻译和建立更准确的语音识别系统。
然而，OpenAI 却暂时不打算公开 GPT-2 的源代码。
“大型通用语言模型可能会产生重大的社会影响，”OpenAI 在文档中写道，“我们将会发布一个小型模型供研究人员进行实验。”
“我们很期待到时候会发生什么，” OpenAI 工程师 Luan 说，“同时也有点儿害怕。”
以上就是本篇文章【“我们从 Reddit 上收集了 800 万个链接”】的全部内容了，欢迎阅览！文章地址：http://fabua.ksxb.net/news/4581.html
文章相关文章动态同类文章热门文章栏目首页网站地图返回首页海之东岸资讯移动站 http://fabua.ksxb.net/mobile/ , 查看更多