热点资讯

你的位置:蝴蝶谷中文娱乐 > 波多野结衣 肛交 > 陈凯歌 男同 智力追上博士生,OpenAI发布最强o1系列模子

陈凯歌 男同 智力追上博士生,OpenAI发布最强o1系列模子


发布日期:2024-10-05 21:20    点击次数:168


陈凯歌 男同 智力追上博士生,OpenAI发布最强o1系列模子

界面新闻记者 | 陈振芳陈凯歌 男同

界面新闻剪辑 | 文姝琪

9月13日凌晨1点,OpenAI发布o1系列模子,包括o1-preview(下称o1预览版)和o1-mini。针对这一音信,该公司首创东说念主Sam Altman在X上暗示:“no more patience, jimmy.(需要耐性恭候的期间兑现了)”

OpenAI暗示:“该模子代表了东说念主工智能智力的新水平。鉴于此,咱们将计数器重置为1,并将该系列定名为o1。”这也意味着,o1即是此前坊间哄传行将发布的“草莓”模子。

算作早期模子,o1模子还不具备ChatGPT的很多实勤恳能,举例浏览网页信息以及上传文献和图片。但OpenAI强调,“对于复杂的推理任务来说,这是一个舛错跳跃。”

现在,ChatGPT Plus和Team用户也曾简略在ChatGPT中看望o1模子,但每周发送音信次数收尾为o1预览版30条音信和o1-mini50条音信。ChatGPT Enterprise和Edu用户将从下周开动使用这两种方法。

此外,恰当API使用品级5的竖立东说念主员也曾不错开动使用API中的两种模子进行原型设想,速率收尾为20RPM,这些模子的API现在不包括函数调用、流式传输、对系统音信的营救和其他功能。

ChatGPT会员被分为Plus、Team、Pro三档,每月订阅价钱分辨为20好意思元、60好意思元(最低)、200好意思元。值得一提的是,就在o1模子发布前一天,OpenAI刚刚上线ChatGPT Pro会员版,售价高达200好意思元/月。

自拍视频

该公司暗示陈凯歌 男同,o1模子在物理、化学和生物学的具有挑战性的基准任务上的证实达到博士生水平。同期,在数学和编码方面证实出色。在国外数学奥林匹克(IMO)资历推行中,GPT-4o仅正确贬责了13%的问题,而o1推理模子得分为83%;o1编码智力在Codeforces比赛中达到89%。

相较于早期模子,o1模子展示了广泛的智力,好意思国数学邀请赛2024(AIME)中, GPT4o、o1 预览版、o1郑再版的准确率分辨为13.4%、56.7%、83.3%。

在Codeforces代码比赛中,韩国伦理电影GPT4o、o1 预览版、o1郑再版的Codeforces准确率分辨为11.0%、62%、89%。

在回应博士级科学问题 (GPQA Diamond)对比上,GPT4o、东说念主类众人、o1的准确率是56.1%、69.7、78%。

图源:OpenAI

Sam Altman在X上暗示,o1模子的的微调版块在国外信息学奥林匹克竞赛(IOI)中得分为49分,而况每个问题有10000次提交,得到金牌。

OpenAI指出,o1模子的增强推明智力在贬责科学、编码、数学和相通边界的复杂问题很是有效。举例医疗计划东说念主员不错使用o1来风雅细胞测序数据,物理学家不错使用o1来生成量子光学所需的复杂数学公式,竖立东说念主员不错使用o1来构建和实行多方法使命经过。

o1系列模子擅长准确生成和调试复杂代码。不外,OpenAI也指出,大型讲话模子(举例o1)是在无数文本数据集上进行预磨真金不怕火的。天然这些高容量模子具有日常的天下常识,但对于本色应用而言,它的资本上流且速率徐徐。

为此,OpenAI还发布了更具性价比的推理模子——o1-mini,算作一款较小的模子,o1-mini比o1预览版低廉80%。

具体到价钱方面,o1预览版API每百万输入15好意思元,每百万输出60好意思元;o1-mini则是每百万输入3好意思元,每百万输出12好意思元。

算作对比,gpt-4o每百万万输入2.5好意思元,每百万输出10好意思元;gpt-4o-mini每百万万输入0.15好意思元,每百万输出0.6好意思元。

在需要推理而无需日常天下常识的边界,o1-mini将是一种更快、经济高效的模子。OpenAI建议,ChatGPTPlus、Team、Enterprise和Edu用户不错使用o1-mini算作o1预览版的替代有计议,具有更高的速率收尾和更低的蔓延。

o1-mini在STEM智力(天然科学、技能、工程和数学)方面,尤其在数学和编码——在AIME和Codeforces等评估基准上的证实险些与o1相配。在一些需要推理的学术基准上,举例GPQA(科学)和MATH-500,o1-mini的证实优于GPT-4o。由于穷乏日常的天下常识,o1-mini在MMLU等任务上的证实不如GPT-4o,在GPQA上逾期于o1预览版。

在需要智能和推理的基准测试中,o1-mini的证实优于o1预览版和o1,但其在需要非STEM事实常识的任务上证实较差。

数学智力方面,在高中AIME数学竞赛中,o1-mini(70.0%)与o1(74.4%)相配,同期价钱低廉得多,且收获优于o1预览版(44.6%),o1-mini的得分(约11/15个问题)梗概位列好意思国高中生前500名。

o1在高中AIME数学竞赛证实。图源:OpenAI

编码方面,在Codeforces竞赛网站上,o1-mini的Elo得分为1650,与o1的1673分不相凹凸,且高于o1预览版的1258。这一得分使该模子在Codeforces平台上竞争的法子员中处于前86%。

东说念主类偏好评估方面,在推明智力较强的边界,o1-mini比GPT-4o更受迎接,但在以讲话为中心的边界,o1-mini并不比GPT-4o更受迎接。

由于o1-mini专注于STEM推明智力,其对于日历、列传和琐事等非STEM主题的事实常识可与GPT-4omini等微型LLM相比好意思。该公司将在异日版块中校阅收尾,并尝试将模子彭胀到STEM以外的其他模态和专科。

OpenAI意象向通盘ChatGPTFree用户提供o1-mini看望权限。除了新的OpenAIo1系列以外,该公司还意象不时竖立和发布GPT系列中的模子。

该公司还很是强调了AI安全问题,为了顺应这些模子的新功能,OpenAI加强了安全使命、里面束缚和联邦政府合营。OpenAI最近与好意思国和英国的东说念主工智能安全计划所风雅达成条约。

在竖立这些新模子的过程中,OpenAI提议了一种新的安全磨真金不怕火方法陈凯歌 男同,诈欺它们的推明智力,使它们效率安全和和洽准则。计算安全性的一种方法是测试当用户试图绕过安全规则(下称“逃狱”)时,在最严格的逃狱测试中,GPT-4o得分为22(0-100分制),而o1预览模子得分为84。