什么是 AGI


AGIArtificial General Intelligence 的缩写,中文翻译为 人工通用智能。它是一种能够像人类一样,具有智能的机器。它能够像人类一样,通过感知、认知、推理、决策、行动等过程,完成各种任务。

懂 AI懂编程懂业务 的超级个体,会是 AGI 时代最重要的人。

ai-timeline

每个时代都有对 AI 的定义,没有绝对的答案。

AI is bullshit。深蓝没用任何 AI 算法,就是硬件穷举棋步。
—— 许博士

I’ve been reluctant to try ChatGPT. Today I got over that reluctance. Now I understand why I was reluctant.

The value of 90% of my skills just dropped to $0. The leverage for the remaining 10% went up 1000x. I need to recalibrate.


我一直不愿意尝试 ChatGPT。今天我克服了这种不情愿。现在我明白我为什么不情愿了。
我 90% 的技能的价值刚刚下降到 0 美元。剩余 10% 的杠杆增加了 1000 倍。我需要重新校准。
—— Kent Beck

以下是一些举例。

  • 写文章
  • 写邮件
  • 出面试题
  • 写代码
  • 回答问题
  • 陪聊天
  • 舆情分析:从公司产品的评论中,分析哪些功能/元素是用户讨论最多的,评价是正向还是负向
  • 坐席质检:检查客服/销售人员与用户的对话记录,判断是否有争吵、辱骂、不当言论,话术是否符合标准
  • 故障解释:根据系统报错信息,给出方便非技术人员阅读的故障说明
  • 零代码开发/运维:自动规划任务,生成指令,自动执行
  • 生成业务逻辑:自定义一套业务描述语言(DSL),直接让 ChatGPT 写业务逻辑代码

收起

首先,我们从三个角度来看待一个业务问题:

  1. 输人是什么:文本、图像、语音信号…
  2. 输出是什么:标签、数值、大段文字(包括代码、指令等)…
  3. 怎么量化衡量输出的对错/好坏?

绝大多数业务问题,都可以归入如下至少一类。

分类
描述
分类问题 笼统的说,输出是标签。输出的标签是个有限集。输出的标签是预先定义好的有限集。
例如:分析一段评论是正向还是负向,是典型的分类问题。输出是两个标签之一:“正向”或“负向”。
更复杂的分类,比如,输入一篇新闻,输出是“政治”、“经济”、“体育”、“娱乐”、“科技”之一(或多个标签)。
聚类问题 没法提前规定有多少种标签,只能把同一类事物聚合在一起,到底能聚出多少类,是数据本身决定的。
例如:自动收集客户经常问到的问题。(我们无法预知客户有多少问题,只能把同一个意思的问题聚合在一起)
回归问题 输出是一个数值,更重要的是,评价输出好坏的标准是误差大小,而不是二元的对错。
举例:跟据专车司机每天工作的时段、时长、跑的公里数,预估他一天的净利润。
决策问题 输出是连续的一系列动作,每一步动作都有代价或收益,每一步的动作本身没有对错,而是要最大化最终的收益。
举例:打游戏、下棋、无人驾驶、对话、量化投资。
概率密度估计 在机器学习的问题中,想直接去做概率密度估计是非常难的。考虑到深度学习的训练过程中,需要做反向传播,那么某些概率分布,比如后验概率就需要变得非常简单,这样才能高效、容易得计算导数。

复杂问题的两个视角

  • 信息抽取,实体识别,内容生成本质上都是分类问题
  • 在 ChatGPT 时代,上述很多问题都可以从文本生成的角度解决

划重点:

  • 把 ChatGPT 看做是一个函数,给输入,生成输出
  • 任何业务问题,都可以用语言描述,成为 ChatGPT 的输入,就能生成业务问题的结果
  • 实际生成中,算法工程师通常需要根据业务 know-how 将上述基本问题串起来。理解问题本质,对拆解任务有很大帮助!
✅ 成功

收起

✅ 成功

收起

❌ 失败

收起

✅ 成功 or ❌ 失败 ?

收起

✅ 成功

收起

简单点来讲,它只是根据上文,猜下一个词(的概率)…

ai-timeline

OpenAI 的接口名就叫「completion」,也证明了其只会「生成」的本质。

下面用程序演示「生成下一个字」。你可以自己修改 prompt 试试。还可以使用相同的 prompt 运行多次。

收起

划重点:用不严密但通俗的语言描述 ChatGPT 的工作原理:

  1. GPT「大模型」阅读了人类曾说过的所有的话。这就是「学习
  2. 把一串词后面跟着的不同词的概率记下来。记下的就是「参数」,也叫「权重
  3. 当我们给它若干词,GPT 就能算出概率最高的下一个词是什么。这就是「生成
  4. 用生成的词,再加上上文,就能继续生成下一个词。以此类推,生成更多文字

你用 ChatGPT 做过的事,是不是都能用这个原理解释?

安装python库

pip install --upgrade openai

收起

收起

科学方面

  • gpt3 与现在国产大模型能力差不多,甚至不如国产大模型。
  • gpt3.5 能力暴增,用了人的对齐加强化学习。

对齐方面

数据标注请了大量的博士 ,语言学家去做这个事。强化学习里面有很多tric,对于资深的从业人员也有挑战。 投入的精力,经验,下的功夫都有差距。这是主观因素。

客观因素

中文的复杂性要比英文高许多, 单字的歧义要比英文大很多,比如,哪家饭店好? 有误导性质。 中文难训,另外 OpenAI 没有公开训练方法。

从底层开始训,需要时间,投入,耐心。

原来在 NLP 领域需要很高成本的数据分析,数据挖掘,现在都可以提效。比如快递行业的信息提取。上面有例子
解决遗忘是通过 Embedding 解决的。 在 LangChain 里有记忆力机制。
效果不好,内容还可以,美工差的有点远。有难度。
算吧,大数据包含的内容很广,有结构化数据和非结构化数据。非结构化数据的结构化是 AI 擅长的能力。
上下文如果表示不下,文本需要拆段,从 embedding 向量找相似的那段。或者摘要,每1000个字生成摘要,去压缩信息。 总结:分段检索,增量摘要。更深,具体问题讨论。
没有,就是一个概率模型。
本质上是思维链。把问题一步一步展开的过程是在丰富上下文。丰富了上文的时候,下文就收敛了。再加上见多了很多1+1, 1+2的问题。如果考一个特别大的加减法计算,大概率算不对。本质上不懂加法,还是靠概率。
Office365 可以自动生成模版,但用的不是大模型的能力,大模型主要是生成内容。

第一步,先从图片里把文字框出来,text-detection

第二步:text-orientation 识别文字的朝向,正,反,角度。

第三步:识别

看数据量和显卡数量。

以 GPT2 举例, 数据集文本在硬盘上40多个G,展开到内存里500G,12层的 transformer,768 * 768 训练这个模型 8 卡 A100 需要两周。可以以此作为参考。

不是,学习业务的语言是 Prompt 形式。训练是训练。
是,微软代理了 OpenAi 的接口。
数据分析和智能体,计算机视觉等。
医药有大量的实验,例如原料的排列组合实验,可能别人已经做过了且发表了。用 NLP 技术去挖掘这套实验是不是别人做过了? 可以节省人力物料成本。
ChatGPT 拥有企业级私有数据保护协议,需要法务看冲突的点。
分析简历,给候选人打标签,能力评估等等。
非结构化数据结构化,智能体,数据分析可以自己推理。
需要把知识和问题同时喂给它。
智能 NPC,可以无限制的和你对话交流。游戏剧本的设计。但是不成熟,里面有很多套路,抓心流(Flow),开放剧情,不写死。
不能。
目前国内大模型达不到商用标准,使用 OpenAi 在国内合规性又做不到。落地难,C 端目前存在这些问题。