本帖最后由 1119093102 于 2022-6-23 11:56 编辑 刚接触逻辑回归有个疑惑,情况如下: 一批数据情况占比为:A 类占75% B 类占15% C 类占10% -------------------------------------------------------------------------------------------- 1、之前我使用glmfit做回归时担心数据量有偏会一定程度上导致拟合结果有偏,所以两两做拟合时两个类的数据数目都一样,得出结果用0.5做阈值,但只能判断两类结果; 比如 A、B数量均为1000组成一个数据集,使用glmfit拟合。 2、此时我使用mnrfit进行多分类的逻辑回归,在上面数据中A类占比很大,我担心验证集拟合结果会有偏,所以也将它们每个类的数目设置成一样的,但是验证集中结果不理想; 比如 length(A) = 1000,length(B) = 1000, length(C) = 1000组成一个数据集,使用mnrfit拟合。 3、不将每个类数目设置成一样时,验证集结果符合理想,但是因为验证集A类占比也很大,所以我也担心新的数据通过模型判断时也会偏向于A类; 比如 length(A) = 1000,length(B) = 500, length(C) = 250组成一个数据集,使用mnrfit拟合。 现在想求证,当数据集情况为上述(3)时,在模型结果上是不是就是有偏于某一类的?如果是,有什么方法可以解决吗? |