内容纲要
材料
介绍
主要是针对语言模型(LM, Language Model)的评测,输入一些文字,然后生成文字。
现在的语言模型都非常的大,从一开始的1B到现在已经700B+,普遍都在50B以上。
关键点
- InstructGPT表现最好, Instruction-tuning相比单纯的预训练大模型表现要明显好很多。不过ChatGPT是在这之后的,基于InstructGPT的ChatGPT表现可能更好。
- 商业的模型效果要比开源模型好。对于付费模型,效果必须要比付费模型好才有人来买。
- Prompting(提示语):提示语非常敏感,需要花很多时间来调提示语
- 现在的趋势是模型越大效果越好, 排名靠前的55%是50B(500亿)以上的参数。现在NLP模型基本都是要大+预训练效果才比较好。