HELM 全面语言模型评测

内容纲要

材料

  1. HELM 全面语言模型评测【论文精读·50】
  2. Holistic Evaluation of Language Models

介绍

主要是针对语言模型(LM, Language Model)的评测,输入一些文字,然后生成文字。
现在的语言模型都非常的大,从一开始的1B到现在已经700B+,普遍都在50B以上。

关键点

  1. InstructGPT表现最好, Instruction-tuning相比单纯的预训练大模型表现要明显好很多。不过ChatGPT是在这之后的,基于InstructGPT的ChatGPT表现可能更好。
  2. 商业的模型效果要比开源模型好。对于付费模型,效果必须要比付费模型好才有人来买。
  3. Prompting(提示语):提示语非常敏感,需要花很多时间来调提示语
  4. 现在的趋势是模型越大效果越好, 排名靠前的55%是50B(500亿)以上的参数。现在NLP模型基本都是要大+预训练效果才比较好。

发表评论