更高隐藏层的融合,提供更多的训练信号:个人阅读理解给出的解读是高层的空间表征更贴近任务本身,因此融合带来的增益更大 。这也是我之前对为啥文本任务在Encoder之后融合效果效果有时比在输入层融合还要好的强行解释 。。。。
至于Manifold mixup为何比mixup更好,作者做了更多的数学证明,不过 。。。这个大家感兴趣去看下就知道这里为何省略一万字了~以及之后出现的Flow Mixup也挑战过Manifold会导致样本分布飘逸以及训练不稳定的问题,不过我并没有在NLP上尝试过manifold的方案 , 以后要是用了再来comment ~
【小样本利器4. 正则化+数据增强 Mixup Family代码实现】
推荐阅读
-
-
-
苹果微信微信聊天记录怎么恢复 苹果微信微信聊天记录如何恢复
-
-
-
-
-
-
-
广州港澳通行证办理需要验指纹吗 广州港澳通行证需要居住证吗
-
-
-
-
-
湖南省车牌号字母代表 湖南省内各市区的车牌字母分别是什么?
-
-
-
预防新型冠状病毒手抄报内容资料 预防新型冠状病毒手抄报内容有哪些
-
-