互助问答第467期:关于数据清洗的问题

关于数据清洗的问题

请教各位老师2个问题:

1.拿到一个原始数据,应当如何清洗数据,大致思路是如何?

2.怎样的标准说明数据大致清洗的比较干净了,可以用了?谢谢!

第一,数据处理之前,你需要有自己的思路。如果没有,看看使用这个数据的相关文献,他们的思路是怎么样,作为参考。

第二,没有标准说明你的数据清理干净与否,也需要看看文献的数据清理结果,与自己的结果是否有差异,并找相关原因!

(0)

相关推荐

  • 基于实验的 ncRNA 靶点查询

    miRTarBase miRTarBase(http://mirtarbase.mbc.nctu.edu.tw/php/index.php)也是一个基于实验基础的 miRNA 绑定基因查询数据库.不同 ...

  • Pubmeth:癌症相关甲基化数据库

    研究过程中,也许有一个问题曾经困扰过你:"该基因是否已经在文献中描述为甲基化且属于哪种癌症类型".虽然不难回答,但解决此类问题比较耗时,一般通过文本挖掘方法(GoldMine)可以 ...

  • 互助问答第484期:关于DID样本时间选择的问题

    关于DID样本时间选择的问题 请问DID的样本时间起码要选事件发生前的多少年呢?如果是事件发生当年开始算可以吗? 一般3~5年,具体事件发生当年还是滞后的一年算,要根据具体的政策来看.

  • 互助问答第483期:关于控制变量选择的问题

    关于控制变量选择的问题 想请教下关于控制变量选择的问题.第一个回归我加了三个控制变量,第二个根据已有的文献我又加入了人口密度.但是回归的结果显示,人口密度加进去好像没什么意义,感觉显著性好像没那么强, ...

  • 互助问答第482期:关于边际效应描述的问题

    关于边际效应描述的问题 老师好,我想问问关于边际效应的系数怎么描述呢? 需要具体看你的变量如何度量,你参考一下文献中类似的度量来描述.

  • 互助问答第485期:关于定序变量的问题

    关于定序变量的问题 请问老师定序变量当自变量可以当数值变量放到回归模型中吗,1到4的定序,比如公平1-4越大越公平,在自变量里可以直接当数值放还是必须需要让非常不公平的那个做参照组. 可以直接放,很多 ...

  • 互助问答第486期:把logit的结果代入到DID问题

    把logit的结果代入到DID问题 请问老师,公式6是用logistics模型来估计政策执行概率,然后把政策执行概率代入到公式7DID中,该怎么把logit的结果代入到DID中呢? logit估计后生 ...

  • 互助问答第487期:关于剔除样本的问题

    关于剔除样本的问题 请问什么时候需要剔除样本呢?某指标连续2-3年缺失数值,可以直接空着,还是得删除这几年的样本呢? 你的问题没有标准答案,需要根据你具体情况来定,如果只是一两个指标,两三年的数据缺失 ...

  • 互助问答第488期:关于控制变量和R方的问题

    关于控制变量和R方的问题 把一个控制变量剔除之前,R方大 但解释变量不显著:去掉一个控制变量后,解释变量显著,但R方只有0.12.请问该怎么办呢? 目前对r2的关注没有以前那么看重.

  • 互助问答第489期:关于DID异质性分析的问题

    关于DID异质性分析的问题 我在做多期双重差分异质性分析,即政策对不同城市级别影响的差异性.看了一些文献,选用了因变量=a+b改革变量*城市级别虚拟变量+c控制变量+个体固定效应+时间固定效应+误差项 ...

  • 互助问答第481期:关于GMM的问题

    关于GMM的问题 请问GMM回归时,Hansen检验0.217,  AR(1)拒绝原假设, AR(2)接受原假设,核心解释变量符号方向都是对的,但是核心解释变量的P值均不显著.此种情况下,应该考虑如何 ...