判定模型的内部指南

发布时间：2021-05-22 21:29:57 所属栏目：大数据来源：互联网

导读：看这样一个例子：有Tony和Mark两个小朋友，他们要在宠物商店中分辨出小猫和小狗。对于宠物，我们假定它们包含颜色、大

看这样一个例子：有Tony和Mark两个小朋友，他们要在宠物商店中分辨出小猫和小狗。对于宠物，我们假定它们包含颜色、大小、眼睛颜色、毛发长短和叫声等特征。

给Mark两张照片，一张是猫，一张是狗，Mark要做出判断。他想到可以根以下条件进行判断：如果叫声是“喵喵”、眼睛是蓝色或绿色、具有褐色或黑色的条纹，则大概率会是猫。根据这样的简单规则，Mark可以容易的识别出猫或狗。

Tony的任务可没这么简单。不是要他判断图片中是猫还是狗，而是要在两张白纸上画出猫和狗的样子。Tony能够画出猫和狗的样子，那么给他展示图片，他也很容易的区分出图中是猫还是狗。可以看到，相比Mark的方法，Tony的方法更加耗时。

假设只有猫狗两种宠物。如果一张图片上是蓝眼睛、棕色条纹的狗，那么Mark可能会将其标记为猫，但Tony可以判断出图片中一定是狗。

如果Tony对猫和狗的特征了解的更多，他能够绘制出更详细准确的图画。但是，如果提供足够多的猫狗数据集，那么Mark会表现得更好。

Mark的判断方法就是认真的观察，总结能够区分的特征，但过多的复杂特征会导致过拟合，但Tony不会遇到这种情况。

如果在访问宠物商店之前，他们没有任何信息呢？也就是说只提供未标注的数据。这种情况下，Mark完全不知道该怎么做，Tony也判别不出什么（因为他不知道“猫”“狗”这两个类别），但至少Tony可以根据看到的猫和狗去画图，这难道不是巨大的优势吗？半监督就是如此。

在上述例子中，Mark就是判别式方法，而Tony代表生成式方法。

（编辑：常州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

如何使用大数据驱动业	交通领域的物联网如何
2022大数据十大关键词	区块链为大数据分析提