明经CAD社区

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 1355|回复: 4

[运行时] cad.net 自然语言查找相似图元

[复制链接]
发表于 2025-7-11 19:05:16 | 显示全部楼层 |阅读模式
本帖最后由 你有种再说一遍 于 2025-7-15 22:44 编辑

# 自然语言查找相似图元
如果你是一个AI中间商,多个用户问了一个问题,
那么每次都去跑你几百万张显卡实在不符合利益.
问题在于用户是自然语言提问的,例如"这个衣服退款流程" "这个鞋子怎么退钱" "我要回水"....
它们都需要映射到退款流程中.
那么我们就需要计算两个句子相似度的功能.

相似度计算这个工具非常好,
在CAD上面我们可以扩展到两个图元像不像的计算中,
毕竟两个图元持久化不就是等于字符串或者二进制流吗?

例如:三角形和四边形.
如果三个点吻合,其实它们是"像"的...哇三角形像四边形,真是让人惊讶.
如果点集都不吻合,但是长度相同呢?也就是拓扑关系相同.
总不能就位移和旋转了相似性就不同了吧.
因此还得根据序列化属性来说,要相对稳定的属性...这样给了我们一个可以硬控制机会,
要用信息掩盖,而不是改标准的序列化输出,
要根据不同方式目标进行不同掩盖,例如点集是最常掩盖的目标,
但是这样还是太麻烦了,应该是某种情况下拉低某些属性的权重,到了阈值直接盖0.
通过基础信息得到,
圆角+三角形+感叹号=>得到⚠️警告牌.
矩形+圆=>花瓶放矮桌.

首先要从统计学到角度来看它要怎么推理出来的呢?
分词就是一种统计,然后词与词之间的过渡概率就是隐马尔可夫链.
我们要把这一套套到三维图元上面.
两个矩形(内偏移)表示矮柜,就对应分词.
矮柜上面的圆形可能是什么?花瓶,玩具.就对应隐马尔可夫链.

但是词元有文字编码作为基础,我们图元的基是什么?
是基础图元,也就是line,arc,circle,spline.
用它们向外扩,然后达到阈值,进行分堆.
之后融合分堆.

我们是根据图元信息的属性hashcode计算相似度,也就是判断它们之间像不像的比值.
可以通过最小编辑距离来进行,也可以通过面数,面积,凸包周长/凸包面积,
也就是它们是多权重和偏置.
注意这里是可以控制有词序或无词序,也表示图元是否需要旋转等相似性判断.
可以先无序再有序,先近似比较,再相同判断,越来越像.

这样有个哲学问题,谁来决定这两个图元是70%就是像还是80%就是像呢?
这是很难决定的,只能机器动态进行收集概率,永远都是输出top-k,
也就是我们容忍幻觉出现,GPT也是数据量和RAG逼退幻觉.
挑选概率相似的方向,靠多数人投票?

无监督学习,
如何依靠数据自动捕获这个交叉熵,来获得与标准的损失度函数呢?
也就是怎么通过自动化在现有海量数据进行呢?
我首先想的其实是怎么扩展两个图元为两堆图元,
毕竟我原本目的是想把不同的 矩形+圆=>花瓶放矮桌,来识别这种无块参照情景.
遍历全部图元,构造倒序索引,把相似度高的提取出来归类,
接着四叉树获取邻近图元,融合计算多个图元之间的相似度信息.卡尔曼滤波(频率派)?前后统计(贝叶斯派)?
这样就自动归纳这堆图元是什么东西了.

把警告牌,衣柜设定到倒序索引,
自然语言就可以通过 "找警告牌" "找衣柜" 得到这堆图元.

动态阈值学习系统
采用三支决策理论:设置双阈值(θ₁,θ₂)划分"相似/不确定/不相似"三个区域
不确定样本通过主动学习交由人工标注,形成反馈循环
使用Beta分布建模标注者的主观差异,通过贝叶斯更新动态调整阈值
不过我们都模拟GPT了,这个操作还是应对数据量不足时候.

无监督聚类优化
图元特征空间可尝试HDBSCAN密度聚类(自动发现簇)
结合t-SNE降维可视化验证聚类效果
对每个簇提取TF-IDF风格的关键特征(如:80%的簇成员包含圆角半径>5mm)

这本质上是聚类算法,而且是自动化聚类,
又很像神经网络,多个权重映射到下一个节点.
(嘻嘻)

https://www.cnblogs.com/JJBox/p/18979329
回复

使用道具 举报

 楼主| 发表于 2025-7-14 04:00:00 | 显示全部楼层
我果然很强,居然被我想到了这种方法.
回复 支持 反对

使用道具 举报

发表于 2025-7-15 14:35:07 | 显示全部楼层
你有种再说一遍 发表于 2025-7-14 04:00
我果然很强,居然被我想到了这种方法.

以前不知道啥是拓扑,在网上百度了一下,看了一下,也看不太懂,但大概和您上面的类似,这个应该是属于拓扑的一种
回复 支持 反对

使用道具 举报

 楼主| 发表于 2025-7-15 15:38:02 | 显示全部楼层
韩飞翔 发表于 2025-7-15 14:35
以前不知道啥是拓扑,在网上百度了一下,看了一下,也看不太懂,但大概和您上面的类似,这个应该是属于拓 ...

拓扑结构应该是指Brep结构.
起初我是因为如果大家画图如果没有画好,然后要有什么算法进行识别每个单元出来,并且自动重新组合成拓扑结构.
毕竟每家每户的图层不一样,图库不一样,如果可以用一个概率模型实现随时随地转换,那么这个概率模型长什么样子
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|CAD论坛|CAD教程|CAD下载|联系我们|关于明经|明经通道 ( 粤ICP备05003914号 )  
©2000-2023 明经通道 版权所有 本站代码,在未取得本站及作者授权的情况下,不得用于商业用途

GMT+8, 2025-11-16 04:05 , Processed in 0.144038 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表