业界动态
“我们从 Reddit 上收集了 800 万个链接”
2024-12-20 19:28

之前只有少部分程序员才能摸到的、门槛高难度更高的 OpenAI 神仙文本生成器 GPT-2,终于有了普通人能使用的 Web 版本!

在这个由加拿大工程师 Adam King 制作的网站上,任何人都能调教简化版的 GPT-2——它能够识别各种各样的输入,从新闻、歌词、诗歌、食谱、代码,甚至到《指环王》和《复仇者联盟》主题,只要给出一个开头,GPT-2 就能完美地接上下茬。

在网站上,我们可以看到目前 GPT-2 掌握的主题似乎有点过于丰富:

而在面对其他类型的输入文本时,GPT-2 同样没有让人失望:

OpenAI 加州实验室工程副总裁 David Luan 在接受 The Verge 采访时表示,有一次,他们命令 GPT-2 以“垃圾回收为什么对世界有害”为题写文章,结果 GPT-2 给出了一篇有理有据令人信服的论文。“尽管这个论点和普世认知相悖,但它还是写出了非常合理的解释”, Luan 说道,“这篇东西完全可以提交给 SAT(美国高考),然后拿高分。”

写作水平优于80%美国高中生的 GPT-2,到底是个什么神仙模型?

为了让 GPT-2 变得足够聪明,工程师喂给了它 800 万个网页链接。这些链接必须精挑细选:要内容丰富多样,要由真人书写编辑,要语言足够精彩。

最终,他们从 Reddit 上选取了 800 万条 Karma 值(相当于论坛里的等级)大于 3 的高赞链接,然后抓取了其中的文本部分,形成了一个 40G 大小的紧凑训练数据集。

在整个无监督训练过程中,工程师没有对 GPT-2 进行任何有针对性的培训。这样一个“放养”的 AI(又叫 Zero-shot 学习法),却在盲测中突破了多项记录,拿下了世界第一。

比起 GPT-2,此前采用机器学习的 AI 都只能算是“狭隘的 AI”,仅能处理特定的任务。

例如 OpenAI 的 DotA 梦之队能战胜人类最强玩家,在《星际争霸》中却连买兵都不会;DeepMind 的AlphaGo 能击败围棋冠军,但它下五子棋的技术可能还不如小学生。但 GPT-2 的表现证明,人类有能力训练出更加泛化的 AI。

但在 OpenAI 前工程师 Ryan Lowe 看来,GPT-2 表现出色的原因主要来源于更大的数据库。GPT-2 的参数数量和训练数据量都是上一代 GPT 的10倍。

与此同时 GPT-2 距离工程师梦想中的万能 AI 仍有一段距离。

在生成文本时,尽管语法和拼写都无懈可击,一些小问题仍然会暴露 GPT-2 的真实身份:例如文本重复,前后矛盾(例如,有时模型会输出“在水下发生火灾”),突然切换话题。

OpenAI 预测,在未来,GPT-2 可以成为写作助手、残障人士对话辅助 AI,同样的模型还能用于语言之间的无监督翻译和建立更准确的语音识别系统。

然而,OpenAI 却暂时不打算公开 GPT-2 的源代码。

“大型通用语言模型可能会产生重大的社会影响,”OpenAI 在文档中写道,“我们将会发布一个小型模型供研究人员进行实验。”

“我们很期待到时候会发生什么,” OpenAI 工程师 Luan 说,“同时也有点儿害怕。”

    以上就是本篇文章【“我们从 Reddit 上收集了 800 万个链接”】的全部内容了,欢迎阅览 ! 文章地址:http://fabua.ksxb.net/news/4581.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 海之东岸资讯移动站 http://fabua.ksxb.net/mobile/ , 查看更多   
最新文章
明确0到2级辅助驾驶系统 “人机共驾”法律属性
公安部交通管理局局长王强7月23日在国新办举行的“高质量完成‘十四五’规划”系列主题新闻发布会上表示,为进一步加强规范管理
iPhone 17系列价格曝光:仅一款不涨价 Pro版更具性价比
【TechWeb】近段时间以来,全新iPhone 17系列尤为吸引外界的目光,而根据供应链最新爆料,iPhone 17系列距离亮相仅剩差不多一个
管庄回收茅台酒!管庄茅台酒回收!
137=1888=0048 回收茅台礼盒15年 30年 50年 80年茅台礼盒回收洋酒系列 回收路易十三,轩尼诗,拉菲,拉图,马爹利,人头马
北京到陶乐物流专线价格,货到付款
长胜物流24 小时服/务热线:||长途搬家|家电托运|电脑托运|液晶电视托运|冰箱托运|洗衣机托运|行李托运|电动车托运|摩托车托运|
解读Solana最新技术路线图:锚定“互联网资本市场”,打造链上华尔街
昨天 Solana 宣布了新的路线图。本质上,由于各链改进都已进入深水区,导致确实有些名词堆砌的情况,我试着用大家可以理解的方式
国泰海通发布新一代全AI智能APP灵犀
央广网北京7月26日消息(记者樊瑞)当前,人工智能技术正加速重构证券行业服务业态,加快发展新一代人工智能是推动证券行业高质
新加坡地道特色平价美食,好吃不踩雷
新加坡太多美食了~亚坤-咖椰吐司$5左右,这是我在新加坡吃的第一顿早餐。不知道好不好吃,但看着一大早就好多人排队,那就没错
上海UPS蓄电池回收
上海UPS回收,UPS电源回收,UPS电池回收:上海APC不间断电源回收,UPS主机回收,机房设备回收,回收UPS设备,UPS蓄电池回收,UPS
云边端协同:虚拟电厂的“神经网”革命
上海某高校586台空调在50秒内无感降负300kW,精度96.57%;重庆虚拟电厂调度17MW可调资源,延迟压缩至100ms级——这组数据的背后
高金食品与远方好物达成战略合作,让高品质“真黑猪”走进千家万户的餐桌
中国黑猪看四川,四川黑猪看高金。高金食品正用“真黑猪”,破局本土黑猪市场占有率困境,开创中国黑猪产业新篇章。7月23日,在