自考问答 自考本科自考百科
  • 回答数

    4

  • 浏览数

    257

世唯装饰
自考问答 > 自考本科 > 自考统计学考点汇总

4个回答 默认排序
  • 默认排序
  • 按时间排序

一janice一

已采纳

除了熟悉业务、掌握业务分析思维和工具外,数据分析专家必备技能堆栈还有一个特别重要的知识点:统计学。 无论是简历的技能描述还是实际面试中,统计学都是必须的基础知识。为什么统计学对数据分析师来说那么重要? 其实答案很明显。 数据分析的价值在于,通过数据洞察业务背后的信息,避免以往“决定拍脑袋,保证拍胸部,拍屁股就走人”的主观误判,一切用数据说话。 数据怎么能说话? 算出一个数据,怎么知道那个数据好不好? 有多好? 两组数据出现在你面前,如何判断这两组数据是否有明显的差异? 要回答这些问题,你需要运用统计学知识,而不是相信自己的眼睛。 因为眼睛有时会说谎,所以你看到的“好”不一定都是好的。 你看到的“没有区别”并不意味着没有区别。但是,许多刚入门的数据分析师在学习统计学知识时都很头疼。 统计学的书籍里写了很难理解的公式,不是一般人能理解的。其实,对大多数数据分析师来说,我们不需要掌握得那么全面和深入。 我们只能掌握一部分知识,理解不了理论。 但是,你只要知道在什么场合使用就可以了。 用了之后,慢慢就能理解了。因此,为了便于学习统计学的基础知识,这里整理一下数据分析工作中最常见的统计学基础知识,并尽量以简单的白字形式进行讲解,以便在面试和以后的工作中都能运用统计学知识。数据分析中的统计学问题1、辛普森悖论是什么? 细分后的结果与整体结果相矛盾,人们常说这就是辛普森的悖论。辛普森悖论主要是因为两组样本不平衡,采样不合理。在正确的实验实施方案中,除被测试变量外,可能影响结果的变量比例必须一致,流量必须均匀合理划分。例如:如果原来的男性是20人,点击1人; 点击女性100人、99人,总点击率为100/120。现在男性100人,点击6人; 女性20人,点击量20人,总点击率26/120。男女点击率都有所提高,但点击率更高的女性所占比例太小,无法提高整体点击率。Q2、协方差与相关系数的差异和联系协方差:协方差表示两个变量的整体误差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致,即一个大于自己的期望值,另一个也大于自己的期望值,则两个变量之间的协方差为正值。如果两个变量的变化趋势相反,一个大于自己的期望值,另一个小于自己的期望值,则两个变量之间的协方差为负值。相关系数:研究变量之间的线性相关程度的量,取值的范围为[-1,1 ]。相关系数也可以认为是协方差。 消除了两个变量维数的影响的标准化特殊协方差。Q3、AB测试的统计很显眼,实际上不显眼是什么原因? 这可能是因为我们在AB测试中选择的样本量太大,与总体数据量的差距很小。 这样的话,即使我们发现了微小的差异,这在统计上也是明显的,在实际案例中可能会变得不明显。举个例子,为了应对我们互联网产品的实践,我们做了改变。 APP启动时间优化为0.001秒。 这个数字在统计学上对应的p值可能很小。 也就是说,虽然在统计学上很显著,但实际上无法感知用户0.01秒的差异。这样显著的统计差异,其实对我们来说没有什么实际意义。因此,统计学显著性并不意味着实际效果的显著性。Q4、如何理解中心极限定理? 中心定理的定义:(1)任一样本的平均值与其所在整体的平均值大致相等。)无论总体是什么样的分布,任一总体的样本平均值都围绕在总体平均值的周围,呈正态分布。中心定理的作用:)1)在无法获得总体数据的情况下,可以用样本来估计总体。)根据总体均值和标准差,判断某个样本是否属于总体。Q5、如何向孩子解释正态分布? 拿出孩子班级的成绩单,按每2分统计人数,画出钟的形状。然后说这是正态分布,很多人都集中在中间。 只有少数非常好的人和坏的人。 拿出隔壁班的成绩单,让孩子们自己画画,发现是这样的现象,拿出班级的身高表一看,是这样的。大多数人之间差别不大,但只有少数人有特别好的人和特别坏的人。 这是生活中普遍出现的现象,这就是正态分布。Q6、什么是聚类? 聚类算法有几种? 选择一个详细介绍(1)聚类分析是一种无监督学习方法,在一定条件下将比较同质的样品归为一类(俗称人在班里聚会,物在班里分组)。正式地说,集群就是对点集合进行考察,根据一定的距离测度将他们归纳成多个“集群”的过程。聚类的目标是缩短同一个集群中点之间的距离并增加不同集群中点之间的距离。)2)聚类方法主要有:a .分层聚类分层法( hierarchical methods )是在满足某些条件之前对给定数据集进行分层分解的方法。具体分为“自下而上”和“自上而下”两个方案。b .聚类划分:(经典算法为k均值) ) )。分区给出具有n个组或记录的数据集。 分裂法构建k个组,每个组表示一个集群。c .密度聚类基于密度的方法( density-based methods ) (基于密度的方法与其他方法的一个根本区别在于基于密度,而不是基于各种距离。这样,可以克服基于距离的算法只能发现“类圆形”聚类的缺点。经典算法: DBSCAN:DBSCAN算法是典型的基于密度的聚类算法。 该算法利用空间索引技术搜索对象邻域,引入“核心对象”和“密度可达”等概念,从核心对象中将所有密度可达对象聚集成一个簇。d .网格聚类基于网格的方法( grid-based methods )首先将数据空间分割为有限个单元( cell )的网格结构,所有处理都以单个单元为对象。此类处理的一大优点是处理速度快。 通常,这与将数据空间划分为多少个单元无关,与目标数据库中记录的数量无关。经典算法: STING :利用网格单元存储数据统计信息,实现多分辨率聚类。)3) k-means容易介绍,开始选取k个点作为聚类中心,剩下的点根据距离分类为类,找到新的类中心,重新分配点; 重复直到达到收敛条件或重复次数。优点是快; 缺点是先指定k,同时对异常值敏感。Q7、线性回归和逻辑回归的区别是什么? 以线性回归为对象的目标变量为区间型,逻辑回归为对象的目标变量为类别型,假定线性回归模型的目标变量和自变量之间的关系是线性相关的,逻辑回归模型的目标变量和自变量是非线性的。线性回归中通常使用假设,对应自变量x的某个值,目标变量y的观测值服从正太分布。逻辑回归中的目标变量y服从二项分布的0和1或多项分布逻辑回归中不存在线性回归中常见的残差。参数评估采用线性回归最小二乘法,逻辑回归采用最大似然法。Q8、为什么朴素的贝叶斯是“朴素”的? 朴素贝叶斯是一种简单但非常强大的预测建模算法。之所以称为朴素贝叶斯是因为它假定每个输入变量都是独立的。这是一个强硬的假设,实际上并不一定,但这项技术对大多数复杂问题仍然非常有效。Q9、k均值和KNN的区别是什么? 首先,这两种算法解决了数据挖掘中的两类问题。k均值是聚类算法,KNN是分类算法。其次,这两种算法分别是两种不同的学习方式。k均值是非监督学习,即不需要提前进行分类标记,而KNN有监督学习,需要对训练数据进行分类标记。最后,k值的含义不同。K-Means的k值表示k类。KNN的k值表示最近的k个邻居。Q10、逻辑回归和线性回归的区别? 线性回归要求因变量必须是连续性数据变量; 逻辑回归需求因变量必须为分类变量、二分类或多分类; 例如,要分析性别、年龄、身高和饮食习惯对体重的影响,请通过线性回归来分析体重是实际重量,还是连续性数据变量。 对体重进行分类,作为因变量分为高、中、低3种体重类型时,采用logistic回归。两者的不同还体现在以下几点。一、性质不同1、逻辑回归:是一个广义线性回归分析模型。2、线性回归:一种利用数理统计中的回归分析,确定两个或多个变量之间相互依存的定量关系的统计分析方法。二、应用不同1、逻辑回归:常用于数据挖掘、疾病自动诊断、经济预测等领域。2、线性回归:常用于数学、金融、趋势线、经济学等领域。以上是【几分面试宝典】系列——统计学基础知识第一篇文章的内容。 历史文章的一部分请恢复为公众号。 更多数据分析面试笔试文章持续更新,敬请期待。 觉得好的话,就分享,点赞,也欢迎收藏~自考/成考有疑问、不知道自考/成考考点内容、不清楚当地自考/成考政策,点击底部咨询官网老师,免费领取复习资料:

244 评论(9)

rinpan2013

请问《统计学概论>中也有这方面的内容 请问什么啊?《概率论与数理统计》和《统计学概论》不是特别难,不怎么涉及高数微积分和导数的内容。我们当时的书也比较薄。我的书《统计学概论》第一章绪论第一节什么是统计第二节统计学的种类及其性质第三节统计学的基本概念第二章统计资料的搜集与整理第一节统计资料的搜集第二节数据整理第三节频数分布第三章统计描述第一节统计图与统计表第二节分布的集中趋势第三节分布的离散程度第四节分布的偏度和峰度第五节Excel在统计描述中的运用第四章抽样分布与参数估计第一节概率与概率分布第二节抽样分布第三节总体参数估计第四节抽样设计第五节Excel在概率计算与参数估计中的运用第五章假设检验第一节假设检验概述第二节总体参数检验第三节非参数检验第四节Excel在假设检验中的运用第六章方差分析第一节方差分析的基本问题第二节单因素方差分析第三节双因素方差分析第四节Excel在方差分析中的运用第七章相关与回归分析第一节相关与回归分析的基本概念第二节简单线性相关与回归分析第三节多元线性相关与回归分析第四节Excel在相关与回归分析中的运用第五节非线性相关与回归分析第八章时间序列分析第一节时间序列分析概述第二节时间序列的水平分析第三节时间序列的速度分析第四节长期趋势分析第五节季节变动与循环波动分析第六节Excel在时间序列分析中的运用第九章统计决策第一节统计决策的基本概念第二节完全不确定型决策第三节一般风险型决策第四节贝叶斯决策第十章统计指数第一节统计指数概述第二节综合指数第三节平均指数第四节指数体系与因素分析第五节统计指数的应用第十一章统计综合评价第一节综合评价概述第二节评价指标的选择与数据处理的方法第三节权重的确定与评价结果的综合第十二章国民经济统计概述第一节国民经济核算的基本问题第二节国内生产总值核算第三节国民经济分析常用指标附录一Excel概述第一节Excel的基本操作第二节使用分析工具库与统计函数附录二常用统计表附表1二项分布临界值表附表2正态分布概率表第九章统计决策第一节统计决策的基本概念第二节完全不确定型决策第三节一般风险型决策第四节贝叶斯决策第十章统计指数第一节统计指数概述第二节综合指数第三节平均指数第四节指数体系与因素分析第五节统计指数的应用第十一章统计综合评价第一节综合评价概述第二节评价指标的选择与数据处理的方法第三节权重的确定与评价结果的综合第十二章国民经济统计概述第一节国民经济核算的基本问题第二节国内生产总值核算第三节国民经济分析常用指标附录一Excel概述第一节Excel的基本操作第二节使用分析工具库与统计函数,附录二常用统计表附表1二项分布临界值表附表2正态分布概率表附表3t-分布临界值表附表4x2分布临界值表附表5F分布临界值表(a=0.05)附表6秩和检验表附表7游程检验R临界值表附表8累计法平均增长速度查对表部分习题参考答案不难的,就是多而烦,加油

201 评论(13)

成都囡囡

1.u分布是标准正态分布,均数为0,标准差为1的正态分布,t分布当自由度足够大的时候近似与u分布,n→∞时,t 分布与标准正态分布完全一致。2.单样本或两样本时用t检验,3样本或者3组以上用方差分析。两样本t检验与方差分析等效,F=t^2。3.卡方检验一般有2*2,2*C,R*C和配对资料卡方检验。注意理论频数不能太小,如有小于1或者1/5以上的格子小于5,则要考虑合并,或者采用fisher确切概率检验。配对资料b+c>40时,卡方=(b-c)^2/(b+c),当b+c<=40时,用(|b-c|-1)^2/(b+c)。4.非参数检验对数据的分布没有要求5.假设检验基本思想就是小概率事件在一次抽样中不会发生。建议你还是参考相关的书籍吧,回答的不够准确

91 评论(9)

在路上8848

统计学自考课程内容:高等数学、西方统计学、概率论与数理统计、国民经济核算、多元统计分析、时间序列分析、抽样技术、应用统计软件、统计预测、统计决策、应用统计学、人口统计学、企业经济统计学、金融工程学、公共卫生统计学、金融风险度量、投入产出分析、中央银行学、财务分析、项目评估、金融投资统计分析、国际经济统计学等。 自考报名条件 1、凡具有本省正式户籍的公民,不受年龄、职业、学历的限制,均可就近报名并参加考试。外省在我省工作学习的人员,也可就近报名参加考试。 2、经国家教育部正式批准或备案的各类高等学校的专科毕业生,可直接申请报考本科段(独立本科段)。 3、考生专科(基础科段)、本科段(独立本科段)可同时兼报,但在领取本科毕业证书前必须先获取专科毕业证书。 4、实践性学习环节考核、毕业论文、毕业设计、毕业考核等,须按规定在本专业涉及实践课程理论考试全部合格后才能报考。 5、提倡在职人员按照学用一致、理论与实践相结合的原则选择报考专业。对某些行业性较强的专业(如公安管理、医学类专业等)将根据专业考试计划的要求限制报考对象。 自考网上报名流程 1、登录各地自考网上报名网站(新生需注册并填写相关资料,老生根据自己之前的账号进行登陆)。 2、到自考办网站规定的指定银行办理一张缴费用银行卡。 3、办理银行卡后的新生,和有银行卡的老考生按照报名网站规定的报名流程完成网上报名。 4、网上报名成功后的新生需要在规定时间到自考办指定的地点进行摄像制作准考证。自考/成考有疑问、不知道如何总结自考/成考考点内容、不清楚自考/成考报名当地政策,点击底部咨询官网,免费领取复习资料:

191 评论(12)

相关问答

  • 企业经济统计学自考重点总结汇总

    当然是学理科,要精才有用呀。才能成为一个人才。才是真正的资本。文科可以以后再考,那只是辅助的东西。不能说没有用,但真正决定你生活的,你人生命运的还是理科

    lindadoncry 3人参与回答 2024-09-25
  • 医学统计学自考重点内容汇总

    医学统计学重点知识归纳u分布是标准正态分布,均数为0,标准差为1的正态分布,t分布当自由度足够大的时候近似与u分布,n→∞时,t 分布与标准正态分布完全一致。

    triangelrain 2人参与回答 2024-09-26
  • 医学统计学自考重点笔记汇总

    1.u分布是标准正态分布,均数为0,标准差为1的正态分布,t分布当自由度足够大的时候近似与u分布,n→∞时,t 分布与标准正态分布完全一致。2.单样本或两样本时

    猪猪侠xtt 2人参与回答 2024-09-26
  • 卫生统计学自考重点内容汇总

    多努力,如果今后不想搞这个,可以将就学及格就行.以后会发现自己兴趣所在的。多下工夫吧!

    舜井街的猫 3人参与回答 2024-09-27
  • 卫生统计学自考重点笔记汇总

    1.u分布是标准正态分布,均数为0,标准差为1的正态分布,t分布当自由度足够大的时候近似与u分布,n→∞时,t 分布与标准正态分布完全一致。2.单样本或两样本时

    Jasmine2001 2人参与回答 2024-09-25

自考地区