笔记|贝叶斯奥卡姆剃刀 Bayesian Occam's razor
贝叶斯模型会自动在复杂和简单模型中找到平衡:既不过于复杂(过拟合,模型仅适用于当前数据集,无法泛化到其他数据集),也不过于简单(欠拟合,模型无法充分解释数据)。
贝叶斯模型会自动在复杂和简单模型中找到平衡:既不过于复杂(过拟合,模型仅适用于当前数据集,无法泛化到其他数据集),也不过于简单(欠拟合,模型无法充分解释数据)。
缺失值处理有时候甚至比机器学习模型本身更重要,因为数据质量决定了预测精度上限,而模型只是去逼近这个上限。但是Missing Data Imputation是个很大的问题,具体情况具体分析,很难一概而论。
这里涉及行业背景;特征间的关系;数据缺失的原因(随机缺失;非随机缺失;完全随机缺失,即只有一部分是可以通过统计方法处理的,另一些只能靠重新采集数据);缺失值处理方法(少的话直接删掉,或者简单填充,连续数用均值,离散数用众数,也可以建模用统计或机器学习方法填充,也可以不用管,有的模型如XGBoost会自动处理缺失值,对流数据处理方法又有不同);还有其他诸多因素。
Install Hierachical Drift Diffusion Model via Conda.
强化学习(Reinforcement Learning)中的状态价值函数(State-value function)和动作价值函数(Action-value function)的关系。
相关性不能说明因果。几乎完全依赖于观察,很少做对照实验的社会科学,又怎么度量因果呢?关键在处理混杂因素(Confounder)。这里稍作整理,粗略梳理了一下社会科学中因果推断(Causal Inference)的常用方法,再附上一些实例:
安装记录:Nvidia Driver + CUDA + cuDNN + Anaconda + Tensorflow GPU + PyCharm。至今摸索出的最快捷的方法。
烧个双系统(Windows 10 + Ubuntu 18.04.2 LTS)
折腾了大半个月搞丹炉,再也不怕笔记本哪天烧了。读书和实习期间经常搬家,一直是用笔记本跑程序,也用过AWS和Google Cloud搞过几个小项目。这么将就了几年,终于醒悟还是需要一个台式机提高工作效率。加上云计算越来越贵,服务器不够稳定,跑跑小demo讲真还是装个台式机经济实惠。