[未答复] 多分类逻辑回归拟合时,拟合数据数量相同和不相同的结果是否有差异

[复制链接]
1119093102 发表于 2022-6-22 11:16:36
本帖最后由 1119093102 于 2022-6-23 11:56 编辑

刚接触逻辑回归有个疑惑,情况如下:

一批数据情况占比为:A 类占75%
B 类占15%
C 类占10%
--------------------------------------------------------------------------------------------
1、之前我使用glmfit做回归时担心数据量有偏会一定程度上导致拟合结果有偏,所以两两做拟合时两个类的数据数目都一样,得出结果用0.5做阈值,但只能判断两类结果;  
比如 A、B数量均为1000组成一个数据集,使用glmfit拟合。

2、此时我使用mnrfit进行多分类的逻辑回归,在上面数据中A类占比很大,我担心验证集拟合结果会有偏,所以也将它们每个类的数目设置成一样的,但是验证集中结果不理想;
比如 length(A) = 1000,length(B) = 1000, length(C) = 1000组成一个数据集,使用mnrfit拟合。

3、不将每个类数目设置成一样时,验证集结果符合理想,但是因为验证集A类占比也很大,所以我也担心新的数据通过模型判断时也会偏向于A类;
比如 length(A) = 1000,length(B) = 500, length(C) = 250组成一个数据集,使用mnrfit拟合。

现在想求证,当数据集情况为上述(3)时,在模型结果上是不是就是有偏于某一类的?如果是,有什么方法可以解决吗?





您需要登录后才可以回帖 登录 | 注册

本版积分规则

相关帖子
相关文章
热门教程
站长推荐
快速回复 返回顶部 返回列表