样本选择偏差-恋爱-信号传输系统

很多公众号文章,可能有先射箭,再画靶的问题。想方设法让你看不清真相。

X、NYTimes,WSJ,各种严重的问题,自然不必多说。很多Blog也是类似。

而公众号,自己刚毕业时,一个记者在做「应届生失业」的选题,找到我。注意,他是先有了选题,有了观点,才去找符合的采访对象的,而不是根据复杂的现实写文章。后来他听到我去做了Web3数字游民,很不典型,不太符合他文章的叙事,自然不会把我的采访放进去。

也就是说,即使新闻或文章,写的都是真的,也绝非客观的。据此描绘出来的图景,就可能失真。也就是「样本选择偏差」问题。

在此基础之上,训练出来的LLM,继承这些问题,有失偏颇,也不足为奇了。(不一定是幻觉,就是可能说的都是真的,但是呈现出来的图景是失真的)。也就是,样本不足以代表整体,用分布不准的训练数据对世界建模,就建的不是很准确。

即使,有批判性思维,即使自己多方采集信息,可能也难以对世界准确建模。而且关键是,有效信号,就是太稀疏了。大量信号模糊,并混合着噪音。

目前,现实世界,我能想到的,超级真实,几乎没有噪音的信号,就只有「付费」了。(类似控制论中,反馈效果极强的信号)。

也就是说,「成本越高越可靠」。

如果不能让对方承担真实代价,付出成本,可能就拿不到信号。比如,我会感觉,polymarket和金融市场,可能是比新闻更有效的预测指标。比如,玩德州扑克时,不能总是冷call,而是需要raise,要求对方支付成本。

所以现在,有时date,我也不会固守「男生付费」的脚本,有时也接受对方请客了。

再说另一个问题。不管是中国还是美国,可能都有大量单身男女,但是,感觉互相都很难把信号有效传达给对方群体。可能,首先每个人发出的信号就太少,可能一个人一年有发出10个信号吗?可能很多人一年10个信号都没有。一些人一年可能就100个信号。

(这里信号包括,一次线下的面对面接触;主动发的消息;公开的相亲广告、交友贴子;小红书或抖快私信,等等)

并且,可以几乎认为,发出的信号量=接收的信号量。

但是,大量的信号,可能都被过滤掉了。

接收端,可能头部的男生和女生,都接收了大部分信号。(比如小红书博主,接收了过量的信号,以至于都看都不看)本来总的信号量就不大。

大量的人,可能收不到什么信号,可能是因为生活方式等原因。

但更主要的,可能是信号错配(比如两个不同频的人),或者,把信号和噪音弄混。

还有,大量的人,可能丧丧的,就没有能量去处理这些信号。

(除此之外,可能还有各种混乱的社交脚本在捣乱)

我能做什么呢?可能首先,还是更高频地发出信号,并且信号尽可能不失真。比如在小红书发交友贴时,直接放照片,暴露性癖性向等ago成本信息,等等。并且,注意识别其他人的高成本信号。

并且,自己可能也要接受一些成本,比如被拒绝,被伤害,被误解,被误判的成本。接受这些成本,也是发出有效信号的成本的一部分。

→这样,就想到了,一个可能更好的策略,就是小红书「写信模式」。有很多人会在小红书找笔友,放自己的邮箱和一些信息。我感觉,单纯邮箱+写信,就足以过滤掉极多的人,也是很高成本的信号,看起来似乎很累,但我估计是效果更好,ROI和效率都更高的模式。(准备尝试一下。反正自己很能写文字。)

理论和实践,可能也总是有距离的。

再说回控制论和反馈。我是感觉,反馈是极其重要的。没有反馈,就没有迭代,没有前进的方向。但如果需要反馈,就需要看到有效信号。而有效信号就很稀疏,很难注意到。(比如赚钱的信号)。