- 积分
- 19528
- 明经币
- 个
- 注册时间
- 2015-8-18
- 在线时间
- 小时
- 威望
-
- 金钱
- 个
- 贡献
-
- 激情
-
|
本帖最后由 你有种再说一遍 于 2025-7-15 22:44 编辑
# 自然语言查找相似图元
如果你是一个AI中间商,多个用户问了一个问题,
那么每次都去跑你几百万张显卡实在不符合利益.
问题在于用户是自然语言提问的,例如"这个衣服退款流程" "这个鞋子怎么退钱" "我要回水"....
它们都需要映射到退款流程中.
那么我们就需要计算两个句子相似度的功能.
相似度计算这个工具非常好,
在CAD上面我们可以扩展到两个图元像不像的计算中,
毕竟两个图元持久化不就是等于字符串或者二进制流吗?
例如:三角形和四边形.
如果三个点吻合,其实它们是"像"的...哇三角形像四边形,真是让人惊讶.
如果点集都不吻合,但是长度相同呢?也就是拓扑关系相同.
总不能就位移和旋转了相似性就不同了吧.
因此还得根据序列化属性来说,要相对稳定的属性...这样给了我们一个可以硬控制机会,
要用信息掩盖,而不是改标准的序列化输出,
要根据不同方式目标进行不同掩盖,例如点集是最常掩盖的目标,
但是这样还是太麻烦了,应该是某种情况下拉低某些属性的权重,到了阈值直接盖0.
通过基础信息得到,
圆角+三角形+感叹号=>得到⚠️警告牌.
矩形+圆=>花瓶放矮桌.
首先要从统计学到角度来看它要怎么推理出来的呢?
分词就是一种统计,然后词与词之间的过渡概率就是隐马尔可夫链.
我们要把这一套套到三维图元上面.
两个矩形(内偏移)表示矮柜,就对应分词.
矮柜上面的圆形可能是什么?花瓶,玩具.就对应隐马尔可夫链.
但是词元有文字编码作为基础,我们图元的基是什么?
是基础图元,也就是line,arc,circle,spline.
用它们向外扩,然后达到阈值,进行分堆.
之后融合分堆.
我们是根据图元信息的属性hashcode计算相似度,也就是判断它们之间像不像的比值.
可以通过最小编辑距离来进行,也可以通过面数,面积,凸包周长/凸包面积,
也就是它们是多权重和偏置.
注意这里是可以控制有词序或无词序,也表示图元是否需要旋转等相似性判断.
可以先无序再有序,先近似比较,再相同判断,越来越像.
这样有个哲学问题,谁来决定这两个图元是70%就是像还是80%就是像呢?
这是很难决定的,只能机器动态进行收集概率,永远都是输出top-k,
也就是我们容忍幻觉出现,GPT也是数据量和RAG逼退幻觉.
挑选概率相似的方向,靠多数人投票?
无监督学习,
如何依靠数据自动捕获这个交叉熵,来获得与标准的损失度函数呢?
也就是怎么通过自动化在现有海量数据进行呢?
我首先想的其实是怎么扩展两个图元为两堆图元,
毕竟我原本目的是想把不同的 矩形+圆=>花瓶放矮桌,来识别这种无块参照情景.
遍历全部图元,构造倒序索引,把相似度高的提取出来归类,
接着四叉树获取邻近图元,融合计算多个图元之间的相似度信息.卡尔曼滤波(频率派)?前后统计(贝叶斯派)?
这样就自动归纳这堆图元是什么东西了.
把警告牌,衣柜设定到倒序索引,
自然语言就可以通过 "找警告牌" "找衣柜" 得到这堆图元.
动态阈值学习系统
采用三支决策理论:设置双阈值(θ₁,θ₂)划分"相似/不确定/不相似"三个区域
不确定样本通过主动学习交由人工标注,形成反馈循环
使用Beta分布建模标注者的主观差异,通过贝叶斯更新动态调整阈值
不过我们都模拟GPT了,这个操作还是应对数据量不足时候.
无监督聚类优化
图元特征空间可尝试HDBSCAN密度聚类(自动发现簇)
结合t-SNE降维可视化验证聚类效果
对每个簇提取TF-IDF风格的关键特征(如:80%的簇成员包含圆角半径>5mm)
这本质上是聚类算法,而且是自动化聚类,
又很像神经网络,多个权重映射到下一个节点.
(嘻嘻)
https://www.cnblogs.com/JJBox/p/18979329 |
|