万万没想到,现在大语言模型们也要像王者荣耀 / LoL / Dota 这些游戏里的玩家一样打排位赛了!据说,那些闭源模型们很快也会被拉出来溜溜。
最近,来自 LMSYS Org的研究人员又搞了个大新闻 —— 大语言模型版排位赛!
顾名思义,「LLM 排位赛」就是让一群大语言模型随机进行 battle,并根据它们的 Elo 得分进行排名。
然后,我们就能一眼看出,某个聊天机器人到底是「嘴强王者」还是「最强王者」。
划重点:团队还计划把国内和国外的这些「闭源」模型都搞进来,是骡子是马溜溜就知道了!
匿名聊天机器人竞技场长下面这样:
很明显,模型 B 回答正确,拿下这局;而模型 A 连题都没读懂……
在当前的排行榜中,130 亿参数的 Vicuna 以 1169 分稳居第一,同样 130 亿参数的 Koala 位列第二,LAION 的 Open Assistant 排在第三。
清华提出的 ChatGLM,虽然只有 60 亿参数,但依然冲进了前五,只比 130 亿参数的 Alpaca 落后了 23 分。
相比之下,Meta 原版的 LLaMa 只排到了第八,而 Stability AI 的 StableLM 则获得了唯一的 800 + 分,排名倒数第一。
团队表示,之后不仅会定期更新排位赛榜单,而且还会优化算法和机制,并根据不同的任务类型提供更加细化的排名。
目前,所有的评估代码以及数据分析均已公布。
拉着 LLM 打排位
在这次的评估中,团队选择了目前比较出名的 9 个开源聊天机器人。
每次 1v1 对战,系统都会随机拉两个上场 PK。用户则需要同时和这两个机器人聊天,然后决定哪个聊天机器人聊的更好。
可以看到,页面下面有 4 个选项,左边更好,右边(B)更好,一样好,或者都很差。
当用户提交投票之后,系统就会显示模型的名称。这时,用户可以继续聊天,或者选择新的模型重新开启一轮对战。
不过,团队在分析时,只会采用模型是匿名时的投票结果。在经过差不多一周的数据收集之后,团队共收获了 4.7k 个有效的匿名投票。
在开始之前,团队先根据基准测试的结果,掌握了各个模型可能的排名。
根据这个排名,团队会让模型去优先选择更合适的对手。
然后,再通过均匀采样,来获得对排名的更好总体覆盖。
在排位赛结束时,团队又引入了一种新模型 fastchat-t5-3b。
以上这些操作最终导致了非均匀的模型频率。
从统计数据来看,大多数用户所用的都是英语,中文排在第二位。
自从 ChatGPT 爆火之后,经过指令跟随微调的开源大语言模型如雨后春笋一般大量涌现。可以说,几乎每周都有新的开源 LLM 在发布。
但问题是,评估这些大语言模型非常难。
具体来说,目前用来衡量一个模型好不好的东西基本都是基于一些学术的 benchmark,比如在一个某个 NLP 任务上构建一个测试数据集,然后看测试数据集上准确率多少。
然而,这些学术 benchmark在大模型和聊天机器人上就不好用了。其原因在于:
1. 由于评判聊天机器人聊得好不好这件事是非常主观的,因此现有的方法很难对其进行衡量。
2. 这些大模型在训练的时候就几乎把整个互联网的数据都扫了一个遍,因此很难保证测试用的数据集没有被看到过。甚至更进一步,用测试集直接对模型进行「特训」,如此一来表现必然更好。
3. 理论上我们可以和聊天机器人聊任何事情,但很多话题或者任务在现存的 benchmark 里面根本就不存在。
那如果不想采用这些 benchmark 的话,其实还有一条路可以走 —— 花钱请人来给模型打分。
实际上,OpenAI 就是这么搞的。但是这个方法明显很慢,而且更重要的是,太贵了……
为了解决这个棘手的问题,来自 UC 伯克利、UCSD、CMU 的团队发明了一种既好玩又实用的全新机制 —— 聊天机器人竞技场。
相比而言,基于对战的基准系统具有以下优势:
可扩展性
当不能为所有潜在的模型对收集足够的数据时,系统应能扩展到尽可能多的模型。
增量性
系统应能够使用相对较少的试验次数评估新模型。
唯一顺序
系统应为所有模型提供唯一顺序。给定任意两个模型,我们应该能够判断哪个排名更高或它们是否并列。
Elo 评分系统
Elo 等级分制度是一种计算玩家相对技能水平的方法,广泛应用在竞技游戏和各类运动当中。其中,Elo 评分越高,那么就说明这个玩家越厉害。
比如英雄联盟、Dota 2 以及吃鸡等等,系统给玩家进行排名的就是这个机制。
举个例子,当你在英雄联盟里面打了很多场排位赛后,就会出现一个隐藏分。这个隐藏分不仅决定了你的段位,也决定了你打排位时碰到的对手基本也是类似水平的。
而且,这个 Elo 评分的数值是绝对的。也就是说,当未来加入新的聊天机器人时,我们依然可以直接通过 Elo 的评分来判断哪个聊天机器人更厉害。
具体来说,如果玩家 A 的评分为 Ra,玩家 B 的评分为 Rb,玩家 A 获胜概率的精确公式为:
然后,玩家的评分会在每场对战后线性更新。
假设玩家 A预计获得 Ea 分,但实际获得 Sa 分。更新该玩家评分的公式为:
1v1 胜率
此外,作者还展示了排位赛中每个模型的对战胜率以及使用 Elo 评分估算的预测对战胜率。
结果显示,Elo 评分确实可以相对准确地进行预测
「聊天机器人竞技场」由前小羊驼作者机构 LMSYS Org 发布。
该机构由 UC 伯克利博士 Lianmin Zheng 和 UCSD 准教授 Hao Zhang 创立,目标是通过共同开发开放的数据集、模型、系统和评估工具,使每个人都能获得大型模型。
Lianmin Zheng
Lianmin Zheng 是加州大学伯克利分校 EECS 系的博士生,他的研究兴趣包括机器学习系统、编译器和分布式系统。
Hao Zhang
Hao Zhang 目前是加州大学伯克利分校的博士后研究员。他将于 2023 年秋季开始在加州大学圣地亚哥分校 Hal?c?o?lu 数据科学研究所和计算机系担任助理教授。
参考资料:
国内期货市场早盘收盘,商品期货多数下跌,棕榈油涨近3%,菜油、豆一、棉花、棉纱、沪银、豆油涨超1%。跌幅方面,燃料油跌超3%,铁矿石、尿素、
:5月4日,奥园健康生活集团有限公司发布截至2022年6月30日止六个月中期业绩公告。 据观点新媒体了解,期内,奥园健康的收入为约人民币8
为践行金融服务为民便民惠民的理念,进一步加强金融知识宣传普及工作,近日,农发行绵阳市安州区支行开展金融志愿服务活动,以知识宣讲+志愿服务模式
在5月的首个交易日,A股表现平稳,主要股指互有涨跌,保险、传媒板块表现亮眼,涨幅居前。 截至4日收盘,上证指数报3350点,涨幅为0.82
2023年“五一”假期出游和消费情况表现火爆,据文化和旅游部数据,今年“五一”全国国内旅游出游合计2.74亿人次、国内旅游收入达1480.5
今年以来,“中字头”板块走势强劲,“中特估”与人工智能概念行情并驾齐驱,成为市场关注焦点。与此同时,越来越多资金借道央企国企主题ETF,挖掘
近日,由证券时报社主办、长江证券协办的“迎接复苏,布局未来”——第八届中国“金长江”私募基金发展高峰论坛暨私募评选活动在上海成功举行。 在
今日,大金融板块延续强势。截至9时40分,银行ETF基金放量涨2.43%,一度涨2.52%,盘中冲击三连升;成分股民生银行、中国银行、农业银
第十三届北京国际电影节“短视频单元”近日公布评奖结果,由华泰证券和中华环境保护基金会联合出品,缤纷自然承制,取材于华泰证券“一个长江”生态环
国家邮政局监测数据显示,今年以来我国快递业务量稳步增长,整体呈现企稳回升态势。截至目前,快递业务量已超300亿件,日均揽收和投递包裹量均超3
先驱网--综合性的生活资讯平台
邮箱:hchchc0324@163.com