登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

2023年06月出版新書

2023年05月出版新書

2023年04月出版新書

2023年03月出版新書

2023年02月出版新書

『簡體書』世界是随机的——大数据时代的概率统计学

書城自編碼: 2979062
分類: 簡體書→大陸圖書→自然科學數學
作者: 李帅
國際書號(ISBN): 9787302461098
出版社: 清华大学出版社
出版日期: 2017-03-01
版次: 1 印次: 1
頁數/字數: 199/214000
書度/開本: 128开 釘裝: 平装

售價:NT$ 281

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
日耳曼通识译丛:近代哲学:从笛卡尔到康德
《 日耳曼通识译丛:近代哲学:从笛卡尔到康德 》

售價:NT$ 150.0
我的灵魂是日落时分空无一人的旋转木马:聂鲁达诗精选
《 我的灵魂是日落时分空无一人的旋转木马:聂鲁达诗精选 》

售價:NT$ 381.0
春日喜你
《 春日喜你 》

售價:NT$ 257.0
我们八月见
《 我们八月见 》

售價:NT$ 215.0
东线炼狱 : 德国反坦克兵的东线日记 : 1941—1942
《 东线炼狱 : 德国反坦克兵的东线日记 : 1941—1942 》

售價:NT$ 439.0
献给皇帝的礼物:Wedgwood瓷器王国与漫长的十八世纪
《 献给皇帝的礼物:Wedgwood瓷器王国与漫长的十八世纪 》

售價:NT$ 594.0
东京札记
《 东京札记 》

售價:NT$ 704.0
大学问·明代国家权力结构及运行机制
《 大学问·明代国家权力结构及运行机制 》

售價:NT$ 649.0

建議一齊購買:

+

NT$ 1210
《 深度学习 》
+

NT$ 346
《 论概率 》
+

NT$ 263
《 概率统治世界 》
+

NT$ 518
《 数据科学与大数据分析 数据的发现 分析 可视化与表示 》
+

NT$ 263
《 改变世界的134个概率统计故事 》
+

NT$ 510
《 社会网络数据分析 》
編輯推薦:
初学者必读,趣味学习统计学,大数据背景下应用导向,生活中的统计学入门读物,工作应用中统计学的学习利刃
內容簡介:
这是一本写给初学者的书,目的是帮助读者理解大数据下概率统计等概念的意义,写作中以案例作先导,引起读者的兴趣和思考,在解答问题的过程中讲述知识。本书共有9章,第1章和第2章介绍概率和*变量的基础知识,第3章和第4章介绍统计和分布的基础知识,第5章是专门介绍博彩的一章,前四章的知识在这里得到了应用,第6、7、8章分别介绍了概率统计的三个重要方法假设检验、贝叶斯定理和线性回归,第9章是杂谈。本书努力避开说教式的言词,把知识融入故事中,在讲解知识的同时,带给读者阅读的乐趣。是一本难得的适合所有对概率统计感兴趣或者学习有需求的读者阅读。希望本书可以帮助读者更快速、更深刻的理解和应用大数据。
關於作者:
李帅,大学本科和硕士均就读于清华大学电子工程系,现就职于国内某网络技术研究所,任网络工程师。硕士和工作期间曾参与云计算、大数据、网络流量分析等多个科研和工程项目,在云计算和数据分析等技术领域富有一定经验。
目錄
目录
第1章
概率 0011.1生还是死:
这是一个概率问题 003
1.2随机事件: 翻飞的硬币 008
1.3条件概率: 门后的老山羊与豪车 011
1.4独立事件: 反复抛起的硬币 017
1.5全概率法则: 英超冠军争夺战 020

第2章
随机变量 0252.1随机变量:
骰子游戏 027
2.2期望与方差: 百变骰子 031
2.3大数定理: 庄家的信条 038

第3章
统计 0473.1从样本到总体:
管中窥豹 049
3.2频数、均值与中位数: 致敬黑曼巴 053
3.3方差与标准差: 致敬马刺 062
3.4均值与方差估计: 近射与狙击 065世界是随机的大数据时代的概率统计学目录 第4章
分布 0694.1分布:
统计学的小九九 071
4.2等概率分布: 硬币的两面 072
4.3几何分布: 一次就好 076
4.4二项分布: 反复掷骰子 079
4.5泊松分布: 神奇的e 083
4.6正态分布: 完美曲线 087
4.7指数分布: 二八与长尾 92

第5章
赌博中的概率统计 0975.1赌博:
激情与理性 099
5.2双色球: 千年等一回 101
5.3足彩: 爱足球,更爱足彩 105
5.4得州扑克: 我不是教你诈 111
5.521点: 保守未必是坏事 119

第6章
假设检验 1256.1主场优势:
规律还是假象? 127
6.2假设检验: 主场真的有优势吗? 131
6.3反证法: 无罪推定 138

第7章
贝叶斯定理 1457.1牧师贝叶斯:
深藏功与名 147
7.2赌神贝叶斯: 一赌定终身 150
7.3死神贝叶斯: 连环恐怖袭击 153
7.4神探贝叶斯: 嫌疑人X的献身 157
7.5朴素贝叶斯: 智能分类 161

第8章
线性回归 1678.1预测未来:
以数据之名 169
8.2线性回归: 奇准的票房预测 172
8.3拟合评估: 拟合优度与分区段拟合 178

第9章
漫谈概率统计 1839.1正三观:
概率统计常识 185
9.2元认知: 概率统计之道 190
9.3兵器谱: 统计软件大盘点 193
9.4大数据: 创新与挑战 195

参考文献 200
內容試閱
第3章统计导语: 概率和统计像一对性格迥异的兄弟,概率是理想主义的文艺青年;统计是务实精干的普通青年。概率喜欢提出很多假设和近似;统计则只顾着搜集数据,分析数据,寻找数据中隐藏的秘密。3.1从样本到总体: 管中窥豹前面两章,我们学习了概率的基础知识,本章我们一起来认识概率的亲兄弟统计。如果说概率论像一个理想主义的文艺青年,统计学则是一个务实精干的普通青年,在统计学中没有那么多假设和近似,统计学研究实实在在的数据,从数据中发现规律,再利用规律指导我们的行动。因此,数据是统计学的基础。在统计学中,数据被自然的分为两类: 样本与总体。举个例子,假设味多美公司刚刚出品了一款巧克力慕斯蛋糕,为了检验这款蛋糕的受欢迎程度,味多美在很多超市里举办免费试吃,并让试吃者填写一份简单的调查问卷。试吃活动进行了两周,收到了一万多份问卷。味多美整理分析了这些调查问卷的内容,针对不同年龄、不同性别的消费者各自进行了分析,发现年轻男性十分喜欢这款蛋糕,于是味多美决定,到中关村和理工科大学去推广这款蛋糕。在这个虚构的例子中,味多美公司想要测试新款蛋糕的受欢迎程度,如果它可以让所有消费者都试吃一次,那么它就可以从试吃结果中精确地找到喜欢这款蛋糕的人群,这么做成本高的离谱,显然无法实现。于是它退而求其次,挑选几个超市开展试吃活动,吸引一部分消费者来品尝,获得他们的反馈。从统计学的角度来看,所有消费者的反馈是总体,部分消费者的反馈是样本。世界是随机的大数据时代的概率统计学第3章统计 0 0 总体,是指一个试验中所有可能的观察值。这些观察值有时是有限多个,比如全校学生的身高;有时是无限多个,比如宇宙中的所有行星,统计学的目标是研究总体中包含的统计学规律。然而,总体往往难以全部获得,因此,我们从总体中抽取一部分观察值,通过研究它们的规律推理出总体的规律,这部分被抽取出来的观察值就是样本。从样本推测总体,正如管中窥豹,虽然只可见一斑,却依然要从这一斑推想出全豹。数据会说谎前面我们提到,数据是统计学的基础,要学习统计学,首先要学会正确地看待数据,有时数据是会说谎的。有这样一个思想实验。很久很久以前,有一个原始人,住在现在的北京所在的地方。他每天早晨从山洞里跑出来,迎接日出,然后出去捕猎,直到太阳落山后,才跑回山洞里睡觉。一天又一天,太阳升起又落下,每天晚上入睡时,他都十分确信,明天早晨,太阳会照常升起。在另一个地方,一个特别寒冷的地方,也有一个原始人。他的头上一直悬着一个太阳,于是他以为,太阳会永远发光。忽然有一天,太阳消失了,消失得无影无踪,刺骨的寒冷夺去了他的生命。直到死去,他也不明白,太阳究竟去哪儿了。两个原始人看到了同一个太阳,却对太阳的认识相去甚远。这个简单的思想实验告诉我们,样本的规律未必能代表总体的规律,你以为太阳升起落下是必然规律,是因为你没去过北极。在统计学中,由片面的样本推理总体的规律往往会以偏概全,这种现象被称为幸存者偏差,更通俗的说法是死人不会说话,第二次世界大战时期美国战斗机的故事正说明了这一点。第二次世界大战时期,美英联军出动大量战斗机,对德国展开大规模空袭,但是德军强大的防空火力让美英联军遭受重创。为了对抗德军的防空火力,美英联军找来了飞机领域的多位专家,要求他们研究战斗机的受损情况,对飞机的设计制造提出改进意见。飞机专家们对执行任务归来的飞机进行了仔细地检查,发现几乎所有的飞机的机腹都伤痕累累,于是专家们建议,加固机腹。可是,美英联军最终没有采纳飞机专家的意见,反而加强了对机翼的防护。这是因为,国防部的一位统计学家认为,能够幸运返航的飞机,机翼大多完好无损,这说明,被击中机翼的飞机都坠落了,而仅被击中机腹的飞机却能够顺利返航,说明机腹不是要害部位,不需要进行加固。因此,他建议美英联军加强对机翼的防护。在上面的事例中,飞机学家由于缺少统计学知识,错把顺利返航的飞机与被击落的飞机混为一谈。他们把顺利返航的飞机作为样本,来推测总体的规律,恰恰掉入了幸存者偏差的陷阱中。反观统计学家,从总体出发来寻找规律,虽然他无法观察到被击落的飞机,但他观察顺利返航的飞机之后,推测出了被击落的飞机可能的受损情况,进而提出加固建议,是更合理的解题思路。这个例子除了提醒我们提防幸存者偏差之外,还告诉我们,弄清研究对象十分重要,被击落的飞机才是正确的研究对象。另有一类数据也容易混淆视听,那就是小概率事件相关的数据。小概率事件是一些生活中非常稀有但切实发生的事件,最常听到的就是彩票中大奖和被雷劈。小概率事件的发生概率也是通过数据计算出来的,比如,要计算被雷劈中的概率,只需要用被雷劈中的人数除以总人口便可以得到,大约接近百万分之一。然而,小概率事件由于样本十分稀少,往往容易出现大幅波动,引起人们的误解。马航370事故让空难再次发酵成一个热点话题,在民航领域,衡量民航安全的重要指标是致死事故率,它是指每一百万次航班中的致死事故总数。在20世纪后半叶,由英国和法国联合研制的协和式超音速客机是全世界最安全的客机,在2000年7月的空难发生前,协和式飞机共飞行了约八万次,从未发生过致死事故,因此致死事故率为0,与之同期的波音737飞机,飞行了约一亿五百万次,致死事故率为0.41。然而,2000年7月,协和式飞机不慎发生空难,仅仅这一次空难,使协和式飞机的致死事故率瞬间升至12,一跃成为全球最危险的飞机!另一个例子是谋杀率。谋杀率是衡量一个国家是否安全的重要指标,在任何一个长期稳定的国家,一年里发生的谋杀案都很少,在13亿人口的中国如此,在不足千人的梵蒂冈也是如此。梵蒂冈是全世界人口最少的独立主权国家,只有不足千人,由瑞士卫队保卫国家安全。多年来,梵蒂冈从未发生过谋杀案件,直到1998年5月4日晚,瑞士卫队队长阿洛伊斯埃斯特曼和妻子被枪杀。这一晚之后,梵蒂冈的谋杀率瞬间达到五百分之一,领跑全球谋杀率排行榜,成为全世界最不安全的国家。后来,梵蒂冈回归了宁静,谋杀率也重新降回零。小概率事件总是很少发生,由数据计算出的发生概率是否有意义,值得质疑。很多时候,小概率事件的概率只是新闻媒体的噱头。从概率统计的角度来看,它只能告诉我们,这件事很少发生。抽样前面我们提到,从总体中抽取一部分可以获得样本。在统计学中,这个抽取的过程叫作抽样。抽样有自己的方法,最简单、最常用的抽样方法是简单随机抽样,比如味多美可以随机挑选几个地方举办蛋糕试吃活动,并在活动过程中随机招揽路人来试吃。在试吃活动中,味多美的服务人员可以给参加试吃的人免费发放购物袋,这样他们就可以辨认出哪些人已经参加过试吃活动,不再招揽他们参加试吃,这就是不重复随机抽样。如果味多美放任所有人试吃,不做任何筛选和限制,就是重复随机抽样。在简单随机抽样中,重复抽样和不重复抽样都是常见的抽样方式。比如,同样是福利彩票,33选7的双色球采用的是不重复抽样,排列3、排列5采用的是重复抽样。在进行数据抽样时,我们根据事件的需要选择抽样方式。除了简单随机抽样,还有其他几种抽样方法。一个是分层抽样,仍以味多美为例,服务人员可以分别邀请年轻女性、年轻男性和儿童参加试吃活动,也就是按照年龄和性别对人群分组,再进行抽样,这就是分层抽样,也可以理解为先分组再抽样;另一个是整群抽样,假定新款的蛋糕有草莓、樱桃和杧果三种配搭的水果,服务人员可以将蛋糕分装到不同的盒子中,每个盒子里放置草莓、樱桃和杧果蛋糕各一块,让消费者们整盒的进行试吃,这种抽样方法便于对比,从对比结果可以看出哪种口味更受欢迎。还有一些抽样方法,本书不再一一介绍,无论采用什么方法,我们的终极目标都是采集到能够代表总体的样本。读到这里,想必读者会有这样的疑问: 现在都是大数据时代了,还需要抽样吗?诚然,在互联网行业里,抽样的概念的确过时了,正如《大数据时代》一书所说: 在大数据时代进行抽样分析就像在汽车时代骑马一样。在互联网行业,样本几乎就是总体,谷歌、苹果和淘宝这些公司甚至不需要刻意的搜集数据,只需要利用互联网软件记录下人们在手机和计算机上的每一次触碰和点击,便完成了数据采集。但是互联网不能代表一切,很多数据并不能从互联网上搜集,比如前面例子中提到的试吃体验数据。所以,在互联网力所不及的领域,采用抽样的方法搜集数据仍是必要的。3.2频数、均值与中位数: 致敬黑曼巴2011年2月,耐克公司推出了一部广告电影《科比就是黑曼巴》,NBA球星科比布莱恩特从此得到了一个新绰号黑曼巴。黑曼巴蛇属于眼镜蛇科,生长于非洲草原和林地,是全世界最致命的毒蛇。除了剧毒,黑曼巴还拥有闪电般的速度,其短距离移动时速可达16~20公里,能在几分钟内杀死13个围捕者;黑曼巴喜欢独居,仿佛孤独是它的天性;黑曼巴十分贪婪,它会一口把猎物吞下,即使是最难消化的食物也会在几小时内消失。正如电影片名所说,科比就是黑曼巴,自从18岁加入NBA联盟起,科比就开始展现自己黑曼巴的天性,他突破速度极快,能够单场独得81分,但是球风偏独,常常被人诟病。不论怎样,当令人窒息的读秒阶段到来时,科比永远是执行绝杀球的不二人选,这时的科比就像剧毒的黑曼巴,随时会在红灯亮起前给予对手致命一击。最接近神的球员是科比的另一个绰号,神指的自然是篮球之神迈克尔乔丹。在科比职业生涯的巅峰期,媒体和球迷们常常拿科比和乔丹做对比,他们会列出两人的各项技术统计,逐一对比,然后写出一篇科比与乔丹,到底谁更强?的软文。今年,科比将正式退役,全世界的篮球迷们都必须对他二十年的职业生涯表达敬意。接下来,我们抽取科比的部分统计数据,一起来学习三个常用的统计量频数、均值和中位数。频数表31是科比20082009赛季常规赛的每场得分数据,下面我们一起来分析这组数据。表31科比20082009赛季常规赛每场得分数据23322226162638373328302327282528234161112736362120262628292719192131343024403714292610172439302512213930353628202319361828332222322929332328493220203116281823161811通过观察,我们可以找出最大值为61,最小值为10。我们想知道,科比的得分在最大值和最小值之间是如何分布的,这时我们需要制作一个频数分布表,绘制一张直方图。我们将最小值到最大值之间划分为6个小范围,也称为6个区间,分别是10~20、21~30、31~40、41~50、51~60、61-70,统计有多少个数据落在这6个区间内,并记录下来,便得到了如表32所示的频数分布表。表32科比得分的频数分布表分组频数相对频数累积频数10~20190.2321921~30400.4885931~40200.2447941~5020.0248151~6000.0008161~7010.01282表中的第一列是分组方式;第二列是频数,即每个区间里有多少个数据;第三列是相对频数,即频数除以数据总量;第四列是累积频数,即对频数进行累积计数。这张表格包含了数据分析的三个重要的思路: 一是分类统计,体现在频数中,即把数据按照某种属性进行分类计数;二是相对数量,体现在相对频数中,相对频数的本质是将频数进行归一化,这样便于与其他数据进行对比;三是累积数量统计,体现在累积频数中,对数量进行累积统计便于我们观察出数量的变化规律,也便于我们快速找出低于或高于某些临界值的数据有多少,比如,从累积频数一列中,我们可以知道,低于30分的有59场,低于40分的有79场。图31是科比得分数据的直方图,直方图与频数分布表相对应,是通过绘图的方式更直观地展现频数分布情况,直方图中每一个条形都代表一个分组,条形的高度代表频数。频数分布表和直方图是统计学中的常用图表,也是数据分析的第一步。图31科比得分的直方图均值平均值,简称均值,是最常用的统计量,计算方法是用总量除以数量。例如,2015年我国的国内生产总值GDP为67.67万亿元,我国同期的人口总数约为13亿,因此,人均GDP为5.2万元。表33是科比20082009赛季82场常规赛的各项技术统计,取出其中的一列数据,全部相加后除以82,便可以计算出科比的场均技术统计。表33科比20082009赛季常规赛技术统计场次得分篮板助攻抢断封盖失误1231151052168320533343201427232225233322462741101720460028295641392156321102453012112942201122446313131264100143565113152357103162872101

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.