HR分析的7个数据集

HR 数据集是罕见的发现,我将列出7个在线可用的最佳 HR 数据集,我还会列出数据中的挑战,这可以是潜在的分析或需要在数据中寻找的东西。

我们强烈主张使用数据和统计数据作为达到目的的手段。在分析中,我们希望使用数据和统计数据为解决业务问题做出贡献。分析和统计本身并不是目的——除非你想学习如何使用它。

01

工作缺勤

这个庞大的人力资源数据集专注于员工缺勤。

数据集包含员工编号和姓名、性别、城市、职务、部门、位置、业务单位、部门、年龄、服务时间和缺勤小时数。

这个数据集结构整齐,这意味着每个员工都有一行,并且该缺勤被视为每个员工的年度缺勤总时数。

潜在的有趣分析

该数据集适用于识别组织中的缺勤情况,此外,年龄和服务年限也可能与缺勤有关。该数据集还可以用作练习集,以使用决策树或线性模型预测缺席。

挑战

这个数据集非常简单。它很大,但仍可在 SPSS 或 Excel 等软件中进行管理。在进行分析之前,你可能必须将许多名义变量编码为数值,但除此之外,数据本身并没有太大的挑战。

02

工作缺勤

该 HR 数据集侧重于缺勤。每行代表一定数量的缺勤——这意味着一名员工可以有多行。

有关员工的信息包括子女数量、工作量、与工作的距离、交通费用、教育、身高、体重、BMI 和旷工时间(以小时为单位)。其他信息包括季节、缺席月份、缺席日期和星期几。

潜在的有趣分析

此数据集可以帮助你找到缺席的预测因素。潜在的分析可能是查看 BMI 与缺勤、季节、工作负荷、与工作的距离以及数据集中的其他因素之间是否存在关联。

挑战

该数据集的挑战主要在于构建数据,一个员工有多个记录。这些需要在分析之前结合起来,该数据集还使你能够进行纵向研究。

03

人力资源数据集

下一个数据集实际上是一个包含五个不同的较小数据表的集合。该数据集包含一个core_datasheet、一个 HR 数据集、一个生产人员数据集、一个招聘成本数据集和一个工资表。

挑战

其他挑战包括寻找生产人员表现不佳的预测因素(使用其他数据表)。次优绩效有多个因变量,包括绩效评级、每日错误率和 90 天投诉。通过将其链接回类似于更一般的 HRIS 信息的数据集,你可以部署决策树和线性回归模型来预测性能。

数据表还包含有关活动或终止状态的数据,允许你预测终止,并将其与其他数据表中包含的所有其他数据相关联。

这可能意味着主要的挑战是信息的丰富性。从你提出的特定研究问题开始,然后开始使用数据来回答它——否则你将迷失在所有数据中。

04

IBM HR Analytics 员工流失和绩效

这个数据集在人员分析领域是众所周知的。当 IBM 创建使你能够练习损耗建模的数据集时,你需要注意。

数据集包含年龄、性别、工作满意度、环境满意度、教育领域、工作角色、收入、加班、加薪百分比、任期、培训时间、当前角色的年数、关系状态等数据。

通过这些变量,IBM 创建了一个相当完整的概览,其中包含平均 HRIS 的数据以及完整的参与度调查。因此,该数据集非常适合预测营业额,或者只是找出留下或离开的组之间的差异。

挑战

该数据集开启了许多可能的分析。最有趣的方法之一可能是使用决策树或逻辑回归找到预测变量。或者,你可以使用更简单的单向方差分析或卡方检验来找出离开和留下的组之间在工作满意度以及他们是否拥有股票期权等因素方面的差异。

05

营业额数据

数据集包含性别、年龄、工资类型、出行方式、交通(雇佣来源)和大五人格等信息!

挑战

提出了一个假设:A/B/C,哪位员工最有可能在职时间最长?展示了如何使用生存分析来预测这一点。

根据爱德华的说法,数据集是真实的——这令人兴奋!对于其余部分,数据非常简单。例如,“独立”转化为宜人的反向尺度,“自我控制”是尽责性,“焦虑”是神经质,而“创新者”则代表开放。

06

职位分类

工作分类反映了工作系列和薪酬等级相关信息,当创建需要适应现有工作结构的新工作时,这一点尤其重要。

作业具有许多影响作业分类的独特特征。其中包括教育水平、经验、组织影响、监督水平、财务预算等。了解不同工作的这些因素能够将工作分为几组——这与薪酬等级和福利待遇有关。

挑战

线性判别分析 (LDA) 可用于查找表征许多类对象或事件的特征组合。使用职位分类数据集可用于对现有职位结构中新创建的职位进行分类,为新创建的职能提供指导。

07

敬业度调查

最难获得的数据集之一是参与度调查。这有几个原因,最重要的是这些调查中的高度机密性和公司敏感信息。

但是,有一个数据集可供想要学习的人使用。该数据集包含诸如绩效评级、职能组以及创新行为、多维敬业度得分、个人主动性、职业管理行为、流动行为(即离开公司的可能性)、组织和专业承诺等变量。

缺乏可用数据是人力资源分析的瓶颈之一。我们还针对每个数据集为你提供了许多挑战,以确保你充分利用它。

一个缺点是这些数据集中只有两个包含真实数据,其余的都是人工生成的。这仍然可以很好地用于测试不同的技术。然而,这些数据很可能是为了分享统计技术的实践或分享叙述而创建的。真实数据没有相同的意图,因此更现实。

(0)

相关推荐