bootstrap抽样(机器学习初学者需要了解的基本算法有哪些)

bootstrap抽样(机器学习初学者需要了解的基本算法有哪些)


发表:2022-09-23 14:25:09 浏览数:

来源:作者:

该方法在生物科学研究中有一定的利用价值和实际意义  非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法.其核心思想和基本步骤如下:(1) 采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样.(2) 根据抽出的样本计算给定的统计量T.(3) 重复上述N次(一般大于1000),得到N个统计量T.(4) 计算上述N个统计量T的样本方差,得到统计量的方差.应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好.通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸.具体抽样方法举例:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘.进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算.,利用Bootstrap方法产生的自举样本计算的某统计量的数据集可以用来反映该统计量的抽样分布,对于N《0.05lenght(X)的情况与有放回抽样的结果相比无太大差别统计中的 Bootstrap 方法是指什么  Bootstrap方法根据给定的原始样本复制观测信息对总体的分布特性进行统计推断,如何获得bootstrap样本一、Bootstrap非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,本文目录机器学习初学者需要了解的基本算法有哪些bootstrap重抽样怎么实现如何获得bootstrap样本bootstrap重抽样对样本量有要求嘛用matlab怎么做bootstrap方法和随机抽样统计中的 Bootstrap 方法是指什么机器学习初学者需要了解的基本算法有哪些你应该使用哪种机器学习算法,bootstrap重抽样的特点Bootstrap方法是一种计算机模拟方法它处理的是实际中可能发生的,用于Bootstrap方法中简单随机抽样原则上应是有放回的抽样,Bootstrap方法能够解决许多传统统计分析方法不能解决的问题。

本文目录

机器学习初学者需要了解的基本算法有哪些

你应该使用哪种机器学习算法?这在很大程度上依赖于可用数据的性质和数量以及每一个特定用例中你的训练目标。不要使用最复杂的算法,除非其结果值得付出昂贵的开销和资源。这里给出了一些最常见的算法,按使用简单程度排序。

1. 决策树(Decision Tree):在进行逐步应答过程中,典型的决策树分析会使用分层变量或决策节点,例如,可将一个给定用户分类成信用可靠或不可靠。

  • 优点:擅长对人、地点、事物的一系列不同特征、品质、特性进行评估
  • 场景举例:基于规则的信用评估、赛马结果预测

2. 支持向量机(Support Vector Machine):基于超平面(hyperplane),支持向量机可以对数据群进行分类。

  • 优点:支持向量机擅长在变量 X 与其它变量之间进行二元分类操作,无论其关系是否是线性的
  • 场景举例:新闻分类、手写识别。

3. 回归(Regression):回归可以勾画出因变量与一个或多个因变量之间的状态关系。在这个例子中,将垃圾邮件和非垃圾邮件进行了区分。

  • 优点:回归可用于识别变量之间的连续关系,即便这个关系不是非常明显
  • 场景举例:路面交通流量分析、邮件过滤

4. 朴素贝叶斯分类(Naive Bayes Classification):朴素贝叶斯分类器用于计算可能条件的分支概率。每个独立的特征都是「朴素」或条件独立的,因此它们不会影响别的对象。例如,在一个装有共 5 个黄色和红色小球的罐子里,连续拿到两个黄色小球的概率是多少?从图中最上方分支可见,前后抓取两个黄色小球的概率为 1/10。朴素贝叶斯分类器可以计算多个特征的联合条件概率。

  • 优点:对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类
  • 场景举例:情感分析、消费者分类

5. 隐马尔可夫模型(Hidden Markov model):显马尔可夫过程是完全确定性的——一个给定的状态经常会伴随另一个状态。交通信号灯就是一个例子。相反,隐马尔可夫模型通过分析可见数据来计算隐藏状态的发生。随后,借助隐藏状态分析,隐马尔可夫模型可以估计可能的未来观察模式。在本例中,高或低气压的概率(这是隐藏状态)可用于预测晴天、雨天、多云天的概率。

  • 优点:容许数据的变化性,适用于识别(recognition)和预测操作
  • 场景举例:面部表情分析、气象预测

6. 随机森林(Random forest):随机森林算法通过使用多个带有随机选取的数据子集的树(tree)改善了决策树的精确性。本例在基因表达层面上考察了大量与乳腺癌复发相关的基因,并计算出复发风险。

  • 优点:随机森林方法被证明对大规模数据集和存在大量且有时不相关特征的项(item)来说很有用
  • 场景举例:用户流失分析、风险评估

7. 循环神经网络(Recurrent neural network):在任意神经网络中,每个神经元都通过 1 个或多个隐藏层来将很多输入转换成单个输出。循环神经网络(RNN)会将值进一步逐层传递,让逐层学习成为可能。换句话说,RNN 存在某种形式的记忆,允许先前的输出去影响后面的输入。

  • 优点:循环神经网络在存在大量有序信息时具有预测能力
  • 场景举例:图像分类与字幕添加、政治情感分析

8. 长短期记忆(Long short-term memory,LSTM)与门控循环单元神经网络(gated recurrent unit nerual network):早期的 RNN 形式是会存在损耗的。尽管这些早期循环神经网络只允许留存少量的早期信息,新近的长短期记忆(LSTM)与门控循环单元(GRU)神经网络都有长期与短期的记忆。换句话说,这些新近的 RNN 拥有更好的控制记忆的能力,允许保留早先的值或是当有必要处理很多系列步骤时重置这些值,这避免了「梯度衰减」或逐层传递的值的最终 degradation。LSTM 与 GRU 网络使得我们可以使用被称为「门(gate)」的记忆模块或结构来控制记忆,这种门可以在合适的时候传递或重置值。

  • 优点:长短期记忆和门控循环单元神经网络具备与其它循环神经网络一样的优点,但因为它们有更好的记忆能力,所以更常被使用
  • 场景举例:自然语言处理、翻译

9. 卷积神经网络(convolutional neural network):卷积是指来自后续层的权重的融合,可用于标记输出层。

  • 优点:当存在非常大型的数据集、大量特征和复杂的分类任务时,卷积神经网络是非常有用的
  • 场景举例:图像识别、文本转语音、药物发现

bootstrap重抽样怎么实现


你理解的“自适应”是页面随着屏幕“缩放/zoom”?屏幕缩小,所有input/button也成比例缩小?那不是自适应。试想按钮缩到5px宽,用户怎么点啊,那就近乎“不可用”了。自适应地、在需要的时候换行,就是为了解决“不可用”:1080p显示器能用,800*600的爪机仍然能点得中(而不必大范围拖动/scroll)。结论:换行是正确的表现;如果布局确实需要保证一行,就设置包含这坨控件的容器的最小宽度。另:建议给按钮们加icon(如fontawesome),改善体验,读图比读字消耗的脑细胞少。将尽可能多的内容、功能挤在一起已经不是最佳实践/潮流了。

如何获得bootstrap样本


一、Bootstrap
非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法。其核心思想和基本步骤如下:
(1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。
(2)根据抽出的样本计算给定的统计量T。
(3)重复上述N次(一般大于1000),得到N个统计量T。
(4)计算上述N个统计量T的样本方差,得到统计量的方差。
应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸。
具体抽样方法举例:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘。
进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算。
二、在统计学中,自助法(Bootstrap
Method,Bootstrapping或自助抽样法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。自助法由Bradley
Efron于1979年在《Annals
of
Statistics》上发表。当样本来自总体,能以正态分布来描述,其抽样分布(Sampling
Distribution)为正态分布(The
Normal
Distribution);但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析。采用随机可置换抽样(random
samplingwith
replacement)。对于小数据集,自助法效果很好。
评论
|
51
0
举报|
2013-04-04
16:14
热心网友
最快回答
  引导(bootstrap):
  (1)一个指令序列,执行它可以导致装入并执行附加的指令,直到将整个计算机程序装入存储器为止.
  (2)一种设计成通过自己的操作使其自身处于期望状态的技术或设备,例如,一种机器例程,该例程的头几个指令足以使其自身的其余部分从输入设备进入计算机。
  在操作系统中:
  指使用一个很小的程序将某个特定的程序(通常是指操作系统)载入计算机中。亦指启动节点,引导节点。

bootstrap重抽样对样本量有要求嘛


bootstrap重抽样对样本量没有要求。Bootstrap再抽样方法扩大样本量,即在传统的数理统计基础上进行统计模拟,随着计算机技术的迅猛发展,这一技术已经渗透到许多科学领域,解决了无法采集到大样本的难题。

bootstrap重抽样的特点

Bootstrap方法是一种计算机模拟方法它处理的是实际中可能发生的,但需要大样本来求出的统计量一般的统计推断都是基于一个分布,诸如正态分布但数据分布未知时或者存在异常值,样本量太小的时候统计推断的结果可信度不高,这时候用bootstrap方法将是一个很不错的选择。

Bootstrap过程的机制是首先有一个实际观测到的数据集称之为原始数据集,它含有n个观查单位,从这个数据集中有放回地随机抽取t个组成一个新样本,称之为Bootstrap样本,随机抽样中原始数据集中的每个观察单位每次被抽到的概率相等。


用matlab怎么做bootstrap方法和随机抽样


设数据存放于向量a中,需要重复n次简单随机采样,程序及说明如下:
m=length(a); %dimension
idx= ceil(m*rand(1,n)) ; %generate n random index between 1 and m
b = a(idx) ; % sampling
这个是有放回的抽样,即两次有可能抽到同一个元素,用于Bootstrap方法中
简单随机抽样原则上应是有放回的抽样,使用randsample(X,N,1)但大多数时候,人们常采用无放回的抽样,对应于randsample(X,N,0),对于N《0.05lenght(X)的情况与有放回抽样的结果相比无太大差别

统计中的 Bootstrap 方法是指什么


  Bootstrap方法根据给定的原始样本复制观测信息对总体的分布特性进行统计推断,不需要额外的信息,Efron(1979)认为该方法也属于非参数统计方法。Bootstrap方法从观察数据出发,不需任何分布假定,针对统计学中的参数估计及假设检验问题,利用Bootstrap方法产生的自举样本计算的某统计量的数据集可以用来反映该统计量的抽样分布,即产生经验分布,这样,即使我们对总体分布不确定,也可以近似估计出该统计量及其置信区间,由此分布可得到不同置信水平相应的分位数——即为通常所谓的临界值,可进一步用于假设测验。因而,Bootstrap方法能够解决许多传统统计分析方法不能解决的问题。在Bootstrap的实现过程中,计算机的地位不容忽视(Diaconis et al.,1983),因为Bootstrap涉及到大量的模拟计算。可以说如果没有计算机,Bootstrap理论只可能是一纸空谈。随着计算机的快速发展,计算速度的提高,计算费时大大降低。在数据的分布假设太牵强或者解析式太难推导时,Bootstrap为我们提供了解决问题的另一种有效的思路。因此,该方法在生物科学研究中有一定的利用价值和实际意义
  非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法.其核心思想和基本步骤如下:
(1) 采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样.
(2) 根据抽出的样本计算给定的统计量T.
(3) 重复上述N次(一般大于1000),得到N个统计量T.
(4) 计算上述N个统计量T的样本方差,得到统计量的方差.
应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好.通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸.
具体抽样方法举例:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘.
进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算.。

本站编辑:
    更多内容:

    沙特B2B电商平台Sary:进军北非市场

    Sary作为沙特B2B电商领头羊,在沙特电商行业的B2B市场份额中占80%。此次收购埃及同行Mowarrid,意味着Sary向北非市场的首次扩张,接下来Mowarrid也将作为Sary埃及站点开放。埃及是非洲第二大经济体,也是阿拉伯世界...

    阅读

    易贝滴眼液和贝复舒眼用凝胶一起用(贝复舒眼用凝胶冷冻后能用吗...

    本文目录贝复舒眼用凝胶冷冻后能用吗贝复舒凝胶的作用贝复舒眼用凝胶冷冻后能用吗贝复舒眼用凝胶冷冻后可能会影响到药物的效果,如果用于干眼症或严重

    阅读

    shirley怎么读(鬼吹灯 Shirley杨怎么读)

    本文目录鬼吹灯 Shirley杨怎么读Shirley中文怎么读shirley怎么念这些英文名怎么读Judy赞美Doris海洋女神名,属于大海

    阅读

    山东经济发展有没有机会超越广东?银商宝合法吗9he

    潜力更大深圳有哪些知名企业山东经济发展有没有机会超越广东山东要超过广东,山东最大的城市是青岛,首先我们就来看看深圳的世界五百强企业,青岛理工

    阅读

    阿迪达斯验货网站(如何在阿迪达斯官网查鞋子的真假)

    2.主标/水洗标/吊牌/ID标 【主标】 现在大部分功能面料的ADIDAS衣服都是采用胶印的主标,一般正品的衣服内里都会有两张小标的,☆辨别

    阅读

    nars口红笔怎么转出来(你都有什么口红)

    本文目录你都有什么口红完全不化妆素颜涂口红会很奇怪吗如何化出雾面唇妆你都有什么口红我的口红更新的比较快,时间长的就丢掉了,现在就剩下下面这些

    阅读

    体验式购物和比价购物哪个才是趋势?你们网购一般在哪里,有优惠...

    有优惠吗欢迎来交流汽车充气泵哪个牌子好体验式购物和比价购物哪个才是趋势购物,所以说在淘宝上购物也不是很积极主动,购物会有比价,本文目录体验式

    阅读

    爱淘金为什么没有签到了(保险公司做保险业务员,几个月没开单了...

    本文目录保险公司做保险业务员,几个月没开单了,是不是应该辞职了网络成了诈骗犯的法外之地,为何抓捕困难为什么大学老师总是爱整一些所谓的平时分,

    阅读

    弈航李宁工厂店是正品吗?商场李宁工厂折扣店里的鞋子是真货么

    本文目录弈航李宁工厂店是正品吗商场李宁工厂折扣店里的鞋子是真货么广州新塘有没有李宁工厂店济南李宁工厂店有哪些具体地址,谢谢李宁超级工厂店怎么

    阅读

    gap是啥意思?zara和gap是一个级别吗

    本文目录gap是啥意思zara和gap是一个级别吗gap中文什么意思GAP的中国公司gap是啥意思“gap”根据英文解释有“缝隙”的意思。是

    阅读

    宝格丽香水简介(宝格丽香水是世界名牌吗)

    本文目录宝格丽香水是世界名牌吗BVLGARI的香水是什么牌子多少钱宝格丽香水怎么样值得购买吗宝格丽香水价值主张宝格丽香水是世界名牌吗宝格丽是

    阅读

    lookfantasticapp下载(微信向苹果投降了吗13.4有黑夜模式了)

    本文目录微信向苹果投降了吗13.4有黑夜模式了有什么好用的图片编辑软件怎么看look直播你喜欢什么app,喜欢它的理由是什么微信向苹果投降了

    阅读

    乐天集团的家族宫斗(这段时间关注朴槿惠的人为何突然猛增)

    本文目录这段时间关注朴槿惠的人为何突然猛增为什么日本解散了财阀,韩国却不能腾讯的势力到底有多大,为什么说腾讯是中国版的超级财阀这段时间关注朴

    阅读

    超越中国的美国优秀公司有哪些(世界500强中国公司超美国,中国...

    本文目录世界500强中国公司超美国,中国上榜公司前三名都是谁美国上市公司的排名是什么美国上市公司都有什么世界500强中国公司超美国,中国都有

    阅读

    德国最值得代购的产品(听说德国锅具很出名,具体有哪些品牌呢)

    主要是欧洲这边的产地的各大品牌都很有差距(比如,什么东西最值得买听说德国锅具很出名,什么东西最值得买到欧洲什么东西值得购买,不同国家的退税是

    阅读

    urban outfitters旗舰店(英国留学生活女生常用的购物网站有哪)

    本文目录英国留学生活女生常用的购物网站有哪高端鞋太贵,有没有类似优衣库一样的快时尚鞋履品牌Urban Outfitters怎么样,谁淘过高个

    阅读

    国内cfa最好的十大培训机构(中国最好的金融培训机构是哪家)

    本文目录中国最好的金融培训机构是哪家国内哪家CFA辅导机构好,金程教育业内好像挺知名的CFA考的人多吗,哪家辅导机构最出名找金程辅导CFA,

    阅读

    蓝海市场有哪些行业(未来哪些行业是蓝海行业)

    2019年农村乡镇汽车市场会是新“蓝海”吗有关2019年农村乡镇汽车市场是不是新“蓝海”的问题,本文目录未来哪些行业是蓝海行业2019年农村

    阅读

    离岸公司注册代理在哪个网站发布信息(你们注册离岸公司会找哪家...

    本文目录你们注册离岸公司会找哪家代理公司帮忙会比较好我想注册离岸公司,可不知道该在哪里注册请大家推荐下想开设离岸账号接受美金,推荐一家正规的

    阅读

    海外购药哪个网站正品(国外的电商网站可以卖药吗)

    本文目录国外的电商网站可以卖药吗有没有靠谱的正品全球购平台想买国外的一些保健品请问京东全球购是正品吗有没有其他海外购平台推荐国外的电商网站可

    阅读