Dropout已经被证明可以有效缓解过拟合,在一定程度上达到正则化的效果。这篇博客简单记录一下在 实现的时候进行rescale的操作。
Dropout
rescale
序言
定义模型类的时候,一般都需要继承nn.Module类。当我们后续对模型进行查看或者定位修改的时候很头疼它的api那么多,应该用哪个,怎么用,为什么……这篇博客就好好捋一捋nn.Module。
nn.Module
多卡训练模型时绕不过的一个问题:DataParallel(DP)和DistributedDataParallel(DDP)有什么区别? 单机单卡不用考虑。 多机多卡用DDP也不用多想。 单机多卡用DP和DDP有啥区别?为什么DDP比DP要快?
DataParallel
DistributedDataParallel
思考一个问题,x = x.cuda(non_blocking=True)中non_blocking的作用,以及什么时候使用。
x = x.cuda(non_blocking=True)
non_blocking
一周几道算法题!
本周算法以动态规划为主,题解如下:
2020年6月,我……硕士毕业了。 没有毕业典礼,自己也没有拍毕业照,我就这样在疫情中匆匆毕业了。