幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

【新智元导读】昨天,Baichuan2-53B正式发布!首次开放API,意味着百川大模型开始正式进军商用了。另外,模型的数学和逻辑推理能力都大幅飙升,对于幻觉的处理,已经在国内遥遥领先。

百川大模型,昨日全面升级!

就在9月25日,百川智能正式发布了全新升级的530亿参数大模型——Baichuan2-53B。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

体验地址:https://www.baichuan-ai.com/home

这一次,它的数学和逻辑推理能力显著提升。

更重要的是,通过高质量数据体系和搜索增强,Baichuan2-53B的幻觉大大降低,是目前国内幻觉问题最低的大模型。

不仅如此,作为首批通过备案的大模型企业,百川智能还开放了Baichuan2-53B API接口。

这意味着,百川智能正式进军To B领域,从此将开启商业化进程。

幻觉处理,国内遥遥领先

最值得一提的是,新升级的Baichuan2-53B,在「幻觉」处理上已经在国内行业遥遥领先了。

简单讲,「幻觉」就是LLM在没有任何已知事实支撑下,常常会一本正经地胡说八道。

别看GPT-4在多种任务上表现突出,但也无法逃过这一诅咒。

那么,为什么大模型会出现「幻觉」?

4月,OpenAI联合创始人兼研究科学家John Schulman在UC伯克利的演讲中,详细阐述了大模型难以攻克的难题。

在Schulman看来,LLM黑盒内部隐藏着一个「知识图谱」。如果这个架构中没有的知识,仅通过SFT教大模型(即行为克隆)知识,实则在教它输出幻觉。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

针对这一难题,百川智能又是如何在大模型的「幻觉处理」上,做到业内领先的呢?

在高质量数据构建上,Baichuan2-53B独创了一套数据质量体系。

以低质、优质为标准将数据进行分类,确保Baichuan2-53B始终使用优质数据进行预训练。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

另外,在信息获取方面,Baichuan2-53B对多个模块进行了升级,包括指令意图理解、智能搜索和结果增强等关键组件。

这一综合体系通过深入理解用户指令,精确驱动查询词的搜索,最终结合大语言模型技术,优化模型结果生成的可靠性,实现更精确、更智能的模型回答结果,减少模型幻觉。

比如,在解释「勾三股四弦五」这个问题上,GPT-4显然是在胡说八道。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

相比之下,Baichuan2-53B一次就给出了正确的回答。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

再比如,「周树人和鲁迅是不是同一个人」这道经典问题,Baichuan2-53B的回答既全面又准确。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

可以看到,通过构建高质量数据体系,以及搜索增强技术两个方面的优化,Baichuan2-53B有效降低了模型幻觉。

经过FacTool评测后的结果显示,Baichuan2-53B的综合得分为140.5,在主流基础大模型中仅排在GPT-4之后,处于国内领先水平。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

FacTool是由上海交通大学、卡内基梅隆大学、香港城市大学、meta 等机构学者共同提出的一款通用框架,能够查核大模型生成内容的事实准确性(也能查核一般性内容的事实准确性)。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

项目地址:https://github.com/GAIR-NLP/factool

能力升级,推理100% up

其实,Baichuan2-53B已经是百川智能发布的第6款大模型了。

4月10日百川智能成立后,就一直在以惊人的速度创新,迭代的速度竟然达到了平均每28天就推出一款大模型!

早在8月8日Baichuan2-53B刚发布时,它就表现出了优异的知识问答、文学创作才能。

如果要问,评价一款大模型是否领先的重要指标是什么,相信「数学和逻辑推理能力」,会是诸多业内人士给出的答案。

这次,在Baichuan-53B的基础上,Baichuan2-53B就重点强化了数学和逻辑推理的能力,并且,还对整体能力进行了全面升级。

具体来说,它的逻辑推理能力提升100%,数学能力提升31%,语言理解能力提升29%,文本创作提升18%,知识问答提升9%。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

数学推理

数学能力大升级的Baichuan2-53B,做起数学应用题来当然是不在话下。

比如,两个数的和是572,其中一个加数个位上是0,去掉0后,就与第二个加数相同。那么,这两个数分别是?

Baichuan2-53B列出了方程式,假设一个加数是10A,另一个为B,然后根据已知条件,得出正解。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

再比如下题中,Baichuan2-53B先计算出来了总运输收入,然后除以每箱玻璃亏损的钱,就得到了损坏的玻璃箱数。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

再来个经典的「两地相距多少千米」的问题,Baichuan2-53B通过分步计算,得出了正确答案。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

推理方面,先来个简单的问题:天气预报本周三会下雨,昨天果然下雨了,今天是星期几?

Baichuan2-53B毫不费力,直接得出「星期四」!

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

接下来,推理难度稍微升级一下:假设有一个池塘,里面有无穷多的水。

现有两个空水壶,容积分别为5升和6升。问如何只有这2个水壶,从池塘里取得3升的水?

Baichuan2-53B行云流水地开始作答,6步内给出了正确答案。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

经过多轮的测试可以发现,升级后的Baichuan2-53B的数学和逻辑推理能力,果然不可同日而语。在曾经不太擅长的题目上,它都有了大幅提升。

时效问题

而在时效性这方面,Baichuan2-53B的表现可谓十分优异。

杭州亚运会刚刚开幕,年龄最小的选手竟然仅有9岁。Baichuan2-53B在最新的问题上,也答对了。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

甚至,Baichuan2-53B准确地解释了,特斯拉刚刚公布的人形机器人Optimus背后神经网络原理。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

再比如,今年9月上旬,第80届威尼斯电影节在意大利落幕。

此次电影节,是否有中国电影和演员获奖?

Baichuan2-53B立刻回答出,李鸿其的《爱是一把枪》获得了最佳长片首作,梁朝伟获得了终身成就金狮奖。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

梅老板与大巴黎的合约今年6月底到期,在7月正式加盟迈阿密国际。

对此,Baichuan2-53B也是了如指掌。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

同样,它还可以准确地告诉你小德一共拿了24次大满贯,包括2023年的这一次。

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

开放API,正式进军商用

不仅如此,这次Baichuan2-53B还正式开放了API接口,可以让企业和开发者将模型集成到自己的应用和服务中。

API地址:https://platform.baichuan-ai.com

这项服务是否有门槛呢?

可以说,几乎没有。Baichuan2-53B的API接口相当便捷易用,只需要简单的配置和集成,就可以接入了。

而且,它对OpenAI的接口高度兼容,这样就可以让客户快速迁移,无论是模型的部署成本还是转换成本,都大大降低。

总之,现在无论是智能客服、智能写作还是智能推荐,都能得到大模型的能力加持。

要说企业用户最关注的,莫过于安全合规问题了。

对此也无需担心。

作为首批通过《生成式人工智能服务管理暂行办法》备案的大模型企业,百川智能为Baichuan2-53B打造了覆盖大模型预训练、精调、推理全周期的安全增强,可以说,全流程都在安全保障之下。

而借助着Baichuan2-53B丰富强大的模型能力,企业用户不仅可以让已有业务升级、减低成本,还能探索更多的应用场景。

可以相信,就在此刻,已经有一大波令人印象深刻的创新,正在土壤中被酝酿了。

参考资料:

https://www.baichuan-ai.com/home

郑重声明:本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系管理员(admin#wlmqw.com)删除。
(0)
用户投稿
上一篇 2023年9月26日
下一篇 2023年9月26日

相关推荐

  • 南京有哪些著名的景点

    南京著名景点: 南朝刘宋泰始中(465-47双增想1),明僧绍(号栖霞)在摄山结庐而居,抗迹人外,与智度和尚相友善,有师友之谊。南齐永明七年(489),明僧绍舍宅为栖霞精舍,请…

    2023年4月11日
  • 骗子自称警察,女子哭诉只有0.25元,你电话费够吗??骗子听了秒挂

    安徽蚌埠,刘女士正在玩手机,突然来了个陌生电话,她疑惑接起后,对方问她是否是刘X?得到肯定答复后,对方自称是公安局的,刘女士听到后,突然很激动地说:“我跟你讲,我卡里就0.25,你…

    2022年10月15日
  • 这个币种迎来史诗级升级,不弱于L2赛道!比特币还有机会吗??

    9.18 早盘分析! BTC 比特币虽然已经收复了9月8日以来的下跌幅度,但是从盘面看,还没有完全解除风险,短周期要站稳28000这个位置才能算是解除,否则还会继续震荡调整。 目前…

    2023年11月4日
  • 核技术应用的10件大事,都有啥?

    ▪来不及 解释了,快关注我 就对了▪ 人生总会有遗漏,但是不要忘记点“在看”!!! 点击本页面左上角的“ 辐射安全与防护”,然后点击下一个页面右上角的“…”,就可以设为 星标了。 …

    2022年12月26日
  • 名牌洗发水(十大名牌洗发水)

    提起名牌洗发水,大家都知道,有人问十大名牌洗发水,你知道这是怎么回事?其实十大名牌洗发水,下面就一起来看看名牌洗发水,希望能够帮助到大家! 洗发水品牌排行榜 世界最好用的洗发水排名…

    2022年12月9日
  • 拼多多百亿补贴三人团怎么加人(拼多多百亿补贴三人团怎么拼)

    拼多多百亿补贴是很多人喜欢的活动,里面的大牌化妆品和手机比别的地方便宜很多,还可以三人团购,更优惠,那么拼多多百亿补贴三人团怎么加人?下面小编为大家带来拼多多百亿补贴三人团加人方法…

    2022年10月27日
  • 魔兽世界怎么去外域(魔兽世界怎么去外域?燃烧的远征)

    从幽暗城坐飞艇到奥格,奥格有两个飞艇点,去外域是另一个飞艇点,在奥格出门口的右手边,也就是说你下飞艇的地方到不了外域,你要去另一边的飞艇点坐飞艇;58级就可以接到外域做任务任务了,…

    2023年3月24日
  • 二维码营销(互联二维码)

    本文主要讲的是二维码营销,以及和互联二维码相关的知识,如果觉得本文对您有所帮助,不要忘了将本文分享给朋友。 二维码营销是什么? 二维码营销不仅仅是将所有的产品都贴上二维码,扫码领红…

    2023年3月21日
  • 怎样把微信加密码锁(微信指纹解锁哪里设置)

    现如今,很多智能手机为了保护大家的个人隐私都在功能上加入了指纹识别功能,而且现在支付宝为了保护大家的财产安全也加入了指纹支付功能。现在微信也加入了指纹支付的行列之中,这是继支付宝钱…

    2022年11月8日
  • 广西药店回应外地网友抢购药品(广西药店回应外地网友抢购药品)

     随着国家防疫政策的改变,最近一段时间大家对于新冠预防和救治相关问题都非常关注,不少人都在购买布洛芬和连花清瘟胶囊,但是当地药店买不到,网传小红书博主发帖教外地网友购买广西较偏远县…

    2022年12月14日

联系我们

联系邮箱:admin#wlmqw.com
工作时间:周一至周五,10:30-18:30,节假日休息