明经CAD社区

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 227|回复: 1

[其它] cad.net [闲谈]Agent智能体

[复制链接]
发表于 前天 20:21 | 显示全部楼层 |阅读模式
本帖最后由 你有种再说一遍 于 2025-5-30 03:42 编辑

# 序
不是让模型做所有事,而是让它恰当地调度资源.

# 名词
LLM大语言模型,这个就是自然语言对话.
RAG检索增强,它其实是LLM(q,RAG(q)),通过向量数据库查询一次,要求LLM从检索结果中采集,以降低模型幻觉产生,并且你还可以实现上层的适配层微调,不需要改下层的LLM.
还有一种RAG是不需要建立向量数据库的,采取把PDF分块,然后让模型a挑选,然后再把分块二度分块,再挑选,然后最后得到分块ids,通过更细心的模型b进行查看内容,得到最后的输出.因为模型价格不一样,所以是多模型,并且你得"语义缓存"储存每次ids和它返回的描述词,下次就只需要先描述词再细读.
LMM多模态模型,可以包含多个RAG,分别检索文本库,图像库,网络等等.
Agent智能体,引入行动链进行更具体的任务实施步骤,例如数学证明推理,分子模型,医学模型
多个专家各自实现自己的任务,然后综合提供结果.

有人问为什么不能LLM完成整个任务?
因为难啊,首先残差网络也存在最大深度,录入越多知识它就会忘记另一些.其次是词嵌入维度的长度也不是无限的.

# 案例分析
## 案例1
"648329+6831"这个任务在神经元调整很久才能学会,而它可以轻松判断这是一条数学题.
并且MCP协议调用计算器会有大几率遇到简单问题是直接回答,然后得到错误答案,而没有调用计算器.

改进方式:
1,你可以用编程方式提取数字,粗过滤,路由到分析单元.
2,由监控者向LLM提问:
用户:"648329+6831等于多少"
监控:用户是问了计算题目吗?你只需要回答是或否,并给出置信度.格式是:"是否;置信度数值;"
3,监控者调用计算器,并输出结果.
4,如果遇到复杂公式,还可以让它分解公式,然后逐步调用计算器计算,接着和LLM直接推理进行比较.
如果一致就直接输出,否则就可以引入另一个LLM进行循环校验.

这样做的目的是,
与其让LLM学会数学题的运算,不如让它学会"数学格式"推理,
然后对于格式的拆解之后的运算就交给计算器.

## 案例2
让LLM计数输出一万个"哈",这种任务会遗忘约束条件,为什么呢?
因为transformer的QKV的Q解码器是循环解码,会拼接历史输出tokens作为新的输入,
举个可能不现实的例子,"哈"两次之后,后面概率更大的"哈哈"会加入,它们的tokens可能对应不同的编码,这种情况是无法计数的.
越长的拼接会令多头注意力关注点同步,发生语义熵减,它会把`<EOS>`终止符号的插入概率趋近于0.
然后靠的是重新归一化,短训练,强制终止,等手段进行终止输出(这些手段没有泛化能力,所以基本上不可以这样优化).
包括最新的滑动窗口注意力,也不能完全解决这个问题.
另外,"苹"是两个tokens,"嘻"是三个tokens,很奇怪吧,这些东西,这说明了AI天生就没有计数能力.
一些例如七言诗,这种语料上面自带换行符的,它就可以很好模拟,因为它遇到了就可以插`<EOS>`终止符号了.

还发现了为什么回答越长越慢的原因.

改进方式:
以编程方式完成循环,或者终止回答.
用户:"输出一万个:哈"
监控:"用户是否输入了一个让你循环输出到任务?你只需要回答是或否,并给出置信度.格式是:"是否;置信度数值;循环内容;循环次数;用户是否嵌套提问;是否要求你写代码完成"
接着你就可以依据条件,用代码repeat内容并输出给用户,或者当它重复数字是巨大无比的值就拒绝(int.maxValue).
嵌套提问,表示用户正在测试提问,此时就不用循环输出了.

等等,上面用代码repeat输出,貌似让AI自己写代码也可以.
不过可能写出非通用的代码,你只叫它repeat("哈",n),而我们更希望是repeat($"{内容}",n).
我把这种操作叫"行为特化",就像JIT特化就是运行期间动态收集信息把慢代码改为快代码.


## 案例3
把Agent分层.
监控层:
可以采取上下文不同的另一个模块.
并且可以切割用户输入,通过提取书签的方式,使得不会发生注意力崩溃,

计算层:
a:调用外部计算器.
b:让LLM自己写代码块作为证明链的一环,交叉使用不同LLM验证结果,反复调用确保的正确性,最后争议部分人工介入.

记忆层:
Agent+数据库+自生成代码.
AI自己不断写代码固化自己的行为步骤,那不就是记忆吗?
然后把这些记忆作为长记忆和短记忆,这不就是人吗?
AI写的代码通过MCP在另一个服务上面调用,嘿嘿,自我进化.

还记得上面说过MCP会偶发性调用,因此此处有强调用和弱调用之分,
反正自己得微调好,把一些每次执行的就放LLM前面.
我甚至想用LLM2进行调整LLM1,
我只需要告诉LLM2如何实施,然后去测试LLM1,
LLM2就可以把LLM1生成代码进行优化(泛化,归并),分类,重编译.

## 案例4
图文混合生成.
目前AI仍然无法生成教育视频,例如有个老师板书传授我不懂的知识.
因为这种要扩散模型+时间序列之类的结合使用.

## 案例5
建筑空间识别,智能驾驶,这种是神经辐射场技术.
它们的本质非常相似,就是如果3d变成2d好做神经网络,2d变3d好做空间识别.

## 案例6
在机加工中由于智能刀路不完美,仍然需要投入人员进行优化,对于相近刀路人工识别.
包括但不限于:加工材料,刀型,曲线插值,切削策略,切深控制避让震动点,转速控制,转台控制,微小转啄,超精密加工.
以及对于每种机型的G代码处理,三轴五轴各自不同.
全部AI修改都要经过G代码的刀路碰撞识别.
引入CNN进行视觉识别:火灾,撞刀等紧急停机.
建立刀具数据库:用时数,切削次数,磨损尺寸记录.
建立机床数据库:型号,气温,尺误差.

-不知道怎么优化,我又不是搞这个的,嘻嘻.

## 案例7
机器运动.
机器人运动中需要大模型去实现理解多关节的逆运动学.
例如把每个关节进行0-255编码,记录运动速度矢量,甚至记录附近地形(例如有督屎你冇可能摸噶)
然后通过随机数雕刻大法放入transformer等模型训练.
最后再基于现实进行动捕进行强化.

姿态缺少行为约束
高维空间中的随机采样效率极低,七自由度机械臂的搜索空间已达`256^7 ≈ 10^16`
99.9%的随机样本会违反物理约束,导致无效训练.
这说明你靠写代码是无法完全模拟"混沌模型"的现实世界,
只能靠"注意力",然后让AI不断调整和命中应该注意的部分.

随机数雕刻大法缺什么?
需要正确的样本量,而且是巨量才可以涌现智慧.
让机器人看片,提取视频中人物是姿态分析.
那么正确的人类姿态呢?
人类其实比机器人更死板,例如我们从地上爬起来的动作不多,而且会进入标准动作.

机器人应该超人还是仿人?
业界疑问,不过我觉得做到思考的快与慢就好了.
完成一套机器人系统,是否可以接入不同的机器人?
毕竟技术背后是要满足边际成本.

# transformer
有人把训练过程的随机数雕刻大法当成炼丹,这样感觉不存在数学原理.
实际上它应该比喻为石雕.
你得先找一颗大石头才能雕大佛,大石头多大相当于语境维度的长度,以及中间层的层数.
不断的雕刻就是控制权重.
你可以看见精美的头部,但是脚部可能是雕刻师不在乎的地方,这就是你所需要的注意力.
随机数雕刻表示有不同的权重高低,那么一个LLM相当于一个人,
多个LLM就可以表示同一件事有不同的看法,这不妥妥都AI议会.
回复

使用道具 举报

发表于 昨天 06:55 来自手机 | 显示全部楼层
卧槽,曲高和寡啊
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|CAD论坛|CAD教程|CAD下载|联系我们|关于明经|明经通道 ( 粤ICP备05003914号 )  
©2000-2023 明经通道 版权所有 本站代码,在未取得本站及作者授权的情况下,不得用于商业用途

GMT+8, 2025-5-30 05:38 , Processed in 0.152831 second(s), 22 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表