2026-05-26

样本选择偏差-恋爱-信号传输系统

很多公众号文章，可能有先射箭，再画靶的问题。想方设法让你看不清真相。

X、NYTimes，WSJ，各种严重的问题，自然不必多说。很多Blog也是类似。

而公众号，自己刚毕业时，一个记者在做「应届生失业」的选题，找到我。注意，他是先有了选题，有了观点，才去找符合的采访对象的，而不是根据复杂的现实写文章。后来他听到我去做了Web3数字游民，很不典型，不太符合他文章的叙事，自然不会把我的采访放进去。

也就是说，即使新闻或文章，写的都是真的，也绝非客观的。据此描绘出来的图景，就可能失真。也就是「样本选择偏差」问题。

在此基础之上，训练出来的LLM，继承这些问题，有失偏颇，也不足为奇了。（不一定是幻觉，就是可能说的都是真的，但是呈现出来的图景是失真的）。也就是，样本不足以代表整体，用分布不准的训练数据对世界建模，就建的不是很准确。

即使，有批判性思维，即使自己多方采集信息，可能也难以对世界准确建模。而且关键是，有效信号，就是太稀疏了。大量信号模糊，并混合着噪音。

目前，现实世界，我能想到的，超级真实，几乎没有噪音的信号，就只有「付费」了。（类似控制论中，反馈效果极强的信号）。

也就是说，「成本越高越可靠」。

如果不能让对方承担真实代价，付出成本，可能就拿不到信号。比如，我会感觉，polymarket和金融市场，可能是比新闻更有效的预测指标。比如，玩德州扑克时，不能总是冷call，而是需要raise，要求对方支付成本。

所以现在，有时date，我也不会固守「男生付费」的脚本，有时也接受对方请客了。

再说另一个问题。不管是中国还是美国，可能都有大量单身男女，但是，感觉互相都很难把信号有效传达给对方群体。可能，首先每个人发出的信号就太少，可能一个人一年有发出10个信号吗？可能很多人一年10个信号都没有。一些人一年可能就100个信号。

（这里信号包括，一次线下的面对面接触；主动发的消息；公开的相亲广告、交友贴子；小红书或抖快私信，等等）

并且，可以几乎认为，发出的信号量=接收的信号量。

但是，大量的信号，可能都被过滤掉了。

接收端，可能头部的男生和女生，都接收了大部分信号。（比如小红书博主，接收了过量的信号，以至于都看都不看）本来总的信号量就不大。

大量的人，可能收不到什么信号，可能是因为生活方式等原因。

但更主要的，可能是信号错配（比如两个不同频的人），或者，把信号和噪音弄混。

还有，大量的人，可能丧丧的，就没有能量去处理这些信号。

（除此之外，可能还有各种混乱的社交脚本在捣乱）

我能做什么呢？可能首先，还是更高频地发出信号，并且信号尽可能不失真。比如在小红书发交友贴时，直接放照片，暴露性癖性向等ago成本信息，等等。并且，注意识别其他人的高成本信号。

并且，自己可能也要接受一些成本，比如被拒绝，被伤害，被误解，被误判的成本。接受这些成本，也是发出有效信号的成本的一部分。

→这样，就想到了，一个可能更好的策略，就是小红书「写信模式」。有很多人会在小红书找笔友，放自己的邮箱和一些信息。我感觉，单纯邮箱+写信，就足以过滤掉极多的人，也是很高成本的信号，看起来似乎很累，但我估计是效果更好，ROI和效率都更高的模式。（准备尝试一下。反正自己很能写文字。）

理论和实践，可能也总是有距离的。

再说回控制论和反馈。我是感觉，反馈是极其重要的。没有反馈，就没有迭代，没有前进的方向。但如果需要反馈，就需要看到有效信号。而有效信号就很稀疏，很难注意到。（比如赚钱的信号）。