灵博集团 | 【GPT-5要来了?超能力AI有望成为最大规模的大语言模型】
该文章来源于每日经济新闻,如有侵权或不予转载,请联系我们删除文章。

近日,OpenAI在其官网发布的一篇博客文章中表示:“使用GPTBot用户代理抓取的网页可能会被用来改进未来的模型。”公司还补充称,GPTBot可以提高内容准确性,扩展未来迭代的能力。此外,由于OpenAI近期刚向美国专利商标局申请了GPT-5商标,国外不少科技媒体认为,OpenAI所指的这个“未来迭代”就是GPT-5。

OpenAI在官网介绍了新产品GPTBot,这是一种网络爬虫,可大规模爬取网络数据用于训练AI模型,据称可以用来改进未来的聊天机器人大模型。
据悉,它将具备众多GPT-4所没有的能力,而且几乎每一项都剑指通用人工智能。
网络爬虫是一种主要通过浏览网络抓取数据的工具,方式包括数据挖掘,网页数据复制/拍照、网站镜像等方式。网络爬虫是互联网和大数据时代最重要工具之一,被誉为“黄金矿工”,应用场景非常广泛。例如,谷歌、必应等搜索引擎通过网络爬虫来收集和建立网页索引,方便用户通过关键字快速找到相关的网页。
OpenAI表示,网络爬虫将从互联网上收集公开可用的数据,但会过滤掉需要付费的内容来源或个人身份信息的消息来源,以及有违反其规定的文本来源。需要指出的是,网站的所有者可以通过在服务器上的标准文件中添加“disallow(禁止)”指令来拒绝网络爬虫。 

OpenAI最先提到的一个变化,就是多模态功能的加强。具体来说,GPT-5的功能包括把文本或语音从一种语言翻译成另一种语言、语音识别、生成文本和语音等。有观点认为,文件中突出的语音识别功能,看似只是一个不起眼的改动,但从某种程度上说,这也是OpenAI对GPT-5在通往AGI的道路上铺下的又一块路砖。
除了上述特点外,OpenAI提交的文件中还提到:“GPT-5可能还具备学习、分析、分类和回应数据的能力”。从目前人工智能的发展趋势来看,这很可能是指GPT-5具备了类似智能体的主动学习能力。而这样的能力,将会使GPT-5与以往只能被动地通过人类投喂数据来学习新知识的模型相比,产生本质的区别。

具体来说,主动学习的能力,是指模型可以根据自身的目标和需求,自主地选择、获取和处理数据,而不是仅仅依赖于人类提供的数据。
这样可以让模型更有效地利用数据中的信息和知识,更灵活地适应不同的数据环境和任务场景,而不只是被动地接收和输出数据。而这样的能力,在GPT-5面临一些比较陌生、垂直的领域时,就显得尤为重要。
如果GPT-5具备了主动学习的能力,它可以自动地从网络上搜集和更新这些领域的相关数据,分析和分类这些领域的基本概念、重要原理和最新动态,以及回应这些领域的常见问题、典型案例和实际应用。

据悉,GPT-3.5有1750亿参数规模,OpenAI没有公布过GPT-4的具体规格,但之后的分析认为其拥有16个专家模型,每个NLP(Natural language processing,自然语言处理)专家大约有1110亿个参数,总计1.8万亿参数,是GPT-3.5的10倍。如果按照这个比例来提升,GPT-5将突破10万亿参数,有望成为最大规模的大语言模型。
目前,GPT-5仍然处于理论概念的阶段,还需要大量的训练和进行广泛的安全审核。据外媒报道,GPT-5有望显著减少回答所包含的错误内容,OpenAI可能会通过先进的训练方法来解决这个问题。此外,GPT-5或将具有更高的计算效率,从而拥有更快的响应时间。虽然具体的细节尚未透露,但人们相信GPT-5可能会通过突破自然语言理解、上下文推理和整体语言流畅性等领域的界限,为AGI做出贡献,并有可能达到通用人工智能的高度。

特此声明
本文为正观号作者或机构在正观新闻上传并发布,仅代表该作者或机构观点,不代表正观新闻的观点和立场,正观新闻仅提供信息发布平台。
分享至

还没有评论,快来抢沙发吧!