HELM 全面语言模型评测

2023年2月14日2023年2月14日作者 WuShan

内容纲要

材料

介绍

主要是针对语言模型（LM, Language Model）的评测，输入一些文字，然后生成文字。
现在的语言模型都非常的大，从一开始的1B到现在已经700B+，普遍都在50B以上。

关键点

InstructGPT表现最好, Instruction-tuning相比单纯的预训练大模型表现要明显好很多。不过ChatGPT是在这之后的，基于InstructGPT的ChatGPT表现可能更好。
商业的模型效果要比开源模型好。对于付费模型，效果必须要比付费模型好才有人来买。
Prompting(提示语)：提示语非常敏感，需要花很多时间来调提示语
现在的趋势是模型越大效果越好，排名靠前的55%是50B(500亿)以上的参数。现在NLP模型基本都是要大+预训练效果才比较好。

阅读量: 578

发表评论取消回复