内容纲要
AIGC在快速发展, 现在AIGC可能迎来了一个转折点, 在过去AIGC更多的是研究人员使用的玩具, 但是这两年越来越多的突破让AIGC可以达到一个能够对我们开始有帮助的阶段, 而且还在快速发展.尽管今天只有部分比较细分的行业在受到AIGC的深入影响,但是发展速度让大家都非常相信在不久的将来,可能就是未来十年, AIGC将会大范围融入我们的生活方方面面,就像当年的计算机.
最近ChatGPT很火, 但是自然语言生成类的模型基本还是没有真的走出一本正经的胡说八道的问题. 可能本质上还是一个最大似然算出来的语句, 并不是真正的认知. 而且这种经常看似非常严谨的描述会让人对错误的信息信以为真,还是挺糟糕的.
背景
尽快OpenAI的GPT当年错过了Transformer的Encoder, 而让Google团队发现了BERT,但是OpenAI在生成AI上现在走的最靠前, 生成模型中很多重要的进展都是他们推进的. 生成模型目前特别依赖超大训练数据和大模型, 基础模型的训练非常的昂贵.
AIGC
- 文字: 对话或者文章,最新的更大的突破是OpenAI的ChatGPT, 用了GPT-3 1%的参数量实现了很好的效果.
- 图片: 多模态的融合,可以文字生成图片,或者文字+图片的输入生成图片. 从GAN到现在Diffusion, 目前最重要的突破是OpenAI的DALLE 2, Stabiliy.ai的Stable Diffusion, Google的Imagen等.
- 音频: 生成音乐
- 视频: 短视频, 还不是很成熟
- 3D模型: Google和NVidia走的比较靠前,但是生成的效果还不理想, 比较新的进展是NVidia提出的Magic3D和GET3D.
- AIGC+NFT
- AIGC+元宇宙
创作内容
- PGC: 专业制作
- UGC: 用户创作
- AIUGC: AI辅助用户创作
- AIGC
AIGC中的重要模型
- GAN: 2014年, 生成最早选择的模型,
- Diffusion: 比GAN更灵活更容易被计算, 最早设计用来去除图片的噪点, 后来用于从纯噪声生成图片. 现在已经取代GAN成为图片生成的首选
- CLIP: OpenAI 2021年开源的CLIP模型, 实现了文本和图像匹配, 而且提供了足够多的文本-图像对进行训练, 这为后期的文本生成图片打下基础
- DALL-E: 以CLIP为核心, 根据用户的prompt生成图片, 后来的DALL E 2.0, Stable Diffusion都是在这个工作的基础上.
AIGC产业
模型即服务(MaaS)
- 基础层: 现在主要是与训练模型为主的基础设施层, OpenAI主要是以API收费为主, Stability.ai以开源基础模型, 商业收费专业版和定制版. 预训练模型花费巨大, OpenAI估计GPT-3的训练费用大约为1200万美金.
- 中间层: 基础基础模型, 快速开发垂类小模型, 在小场景中使用.
- 应用层: 面向C端提供文字,图片,音视频生成服务.
AIGC优势
- 自动生成, 快速省时间
- 内容质量不断提升, 能够看到人看不到的一些模式
- 内容非常多样
- 成本低,门槛低
- 个性化内容生成, 任何人任何时候都可以使用
聊天机器人和数字人
使用数字人和用户进行交互, 体验更好(更科幻), 这里面主要的技术
- 语音理解
- ASR: 语音转文本
- NLP: 理解文本
- TTS: 输出的文本合成语音
- 动作合成
- AI驱动嘴型和动作: 驱动2D或3D的动画
- AI驱动其他动作: 肢体动作等
合成数据
数据是人工智能最重要的基础, Forrester认为未来人工智能2.0的五项关键技术是 合成数据,强化学习,Tansformer, 联邦学习,因果推理.
数据类型
- 结构化数据
- 多媒体数据: 图片领域的视觉增强技术, 仿真技术, 数据合成使用的比较多.
- 文本数据
数据一直是AI最重要的资产,获取合适质量的数据一直成本不低, 人工标注的数据则更贵. 合成数据用来解决某些领域数据少, 或者隐私问题有特别的效果.
挑战
- 版权
- 安全: 数据泄露, 虚假信息, 伦理和歧视,环境和能源.