这本数据实战手册 R+Python图书,是2016-08-01月由人民邮电出版社所出版的,著作者信息: [美] Tony Ojeda(托尼·奥杰德),Sean Patrick Murphy(肖恩·派特里克·墨菲),Benjamin Bengfort(本杰明·班福特),Abhijit Dasgupta(阿布吉特·达斯古普塔) 著,郝智恒,王佳玮,谢时光,刘梦馨 译,本版是第1次印刷, ISBN:9787115426758,品牌:异步图书, 这本书的包装是16开平装,所用纸张为胶版纸,全书页数326,字数有万字, 是本值得推荐的Python软件开发图书。
这本书是基于R和Python的数据项目案例集锦,内容涵盖了基于数据的所有要素,包括数据采集、处理、清洗、分析、建模、可视化以及数据产品的搭建。案例包含了汽车数据分析、股票市场建模、社交网络分析、推荐系统、地理信息分析,以及Python代码的计算优化。通过手把手的案例解析,令读者知其然并知其所以然。业界的数据分析师、数据挖掘工程师、数据家都可以读一读。想要了解实际工作中如何用数据产生价值的在校学生,或者对数据感兴趣的人也值得一读。
作者简介
Tony Ojeda(托尼·奥杰德),华盛顿DC数据社区的联合创始人,一位经验丰富的数据家和企业家,他在佛罗里达国际大学获得金融硕士学位,并且在德保罗大学获得了MBA学位。
Sean Patrick Murphy(肖恩·派特里克·莫非),华盛顿DC数据社区的联合创始人,曾在约翰霍普金斯大学的应用物理实验室做了15年的高级家,他专注于机器学习、信号处理、高性能计算以及建模和模拟。现在他是旧金山、纽约和华盛顿DC多家公司的数据顾问。
Benjamin Bengfort(本杰明·班福特),一位非常有经验的数据家和Python开发者。他曾在军方、业界和学术界工作过8年。他目前在马里兰大学派克学院攻读计算机博士学位,研究元识别和自然语言处理。他拥有北达科塔州立大学的计算机硕士学位,并是乔治城大学的客座教授。
Abhijit Dasgupta(阿布吉特·达斯古普塔),华盛顿DC数据社区的成员,华盛顿DC统计编程社群的创始人和联合组织者,他拥有华盛顿大学生物统计的博士学位,在生物制药行业咨询、商业分析、生物信息以及生物工程咨询方面拥有多年的经验。
译者简介
郝智恒,甘肃兰州人,南开大学概率统计专业毕业,统计之都活跃会员。目前在阿里巴巴商业智能部任职,擅长数据分析和数据挖掘,喜欢用数据探索商业世界的边界。
王佳玮,黄山脚下长大,香港城大-中科大联合培养博士毕业,现于阿里云大数据孵化器团队搬砖,喜欢数据分析和挖掘在社会各领域的应用,目前正致力于用数据和算法解决交通拥堵问题。
谢时光,2011年博士毕业于美国弗吉尼亚理工大学工业工程系运筹学专业,毕业后从事数据分析、优化和决策支持相关工作至今。曾先后在安飞士(Avis)、费埃哲(FICO)等行业领先的公司从事从供应链到风险控制等多个应用领域的数据分析和优化决策研究工作。
刘梦馨,灵雀云高级软件工程师,专注于容器虚拟化领域,机器学习爱好者。
本书涵盖R和Python两种主流语言,其优点在于其结构,每一章的每一节内容都是按照“准备工作—处理流程—工作原理”的方式组织,这种组织形式非常适合一边实践一边学习(learn-by-doing)。
第1章准备你的数据环境1
简介1
理解数据管道3
处理流程3
工作原理3
在Windows、Mac OS X、Linux上安装R5
准备工作5
处理流程5
工作原理7
参考资料7
在R和RStudio中安装扩展包7
准备工作8
处理流程8
工作原理9
更多内容10
参考资料10
在Linux和Mac OS X上安装Python10
准备工作11
处理流程11
工作原理11
更多内容11
参考资料12
在Windows上安装Python12
处理流程13
工作原理13
参考资料14
在Mac OS X和Linux上安装Python数据分析库14
准备工作14
处理流程14
工作原理15
更多内容16
参考资料16
安装更多Python包17
准备工作17
处理流程17
工作原理18
更多内容18
参考资料18
安装和使用virtualenv19
准备工作19
处理流程19
工作原理21
更多内容21
参考资料22
第2章汽车数据的可视化分析(R)23
简介23
获取汽车燃料效率数据24
准备工作24
处理流程25
工作原理25
为了你的第一个项目准备好R26
准备工作26
处理流程26
工作原理26
参考资料26
将汽车燃料效率数据导入R27
准备工作27
处理流程27
工作原理28
更多内容29
参考资料30
探索和描述燃料效率数据30
准备工作30
处理流程30
工作原理32
更多内容33
进一步分析汽车燃料效率数据34
准备工作34
处理流程34
工作原理43
参考资料44
研究汽车的产量以及车型44
准备工作44
处理流程44
工作原理46
更多内容47
参考资料47
第3章模拟美式橄榄球比赛数据(R)48
简介48
准备工作49
获取和清洗美式橄榄球比赛数据49
准备工作50
处理流程50
工作原理53
参考资料53
分析和理解美式橄榄球比赛数据53
准备工作53
处理流程53
工作原理61
更多内容61
参考资料62
构建度量攻防能力的指标62
准备工作62
处理流程62
工作原理64
参考资料65
模拟单场由程序决定胜负的比赛65
准备工作65
处理流程65
工作原理68
模拟多场由计算决定胜负的比赛68
准备工作68
处理流程69
工作原理73
更多内容74
第4章建模分析股票市场数据(R)75
简介75
准备工作76
获取股票市场数据76
处理流程77
描述数据78
准备工作79
工作原理80
更多内容81
清洗和研究数据82
准备工作82
处理流程82
工作原理87
参考资料87
形成相对估值法87
准备工作87
处理流程88
工作原理91
分析历史价格筛选股票92
准备工作92
处理流程92
工作原理98
第5章就业数据的可视化探索(R)99
简介99
分析前的准备100
准备工作101
处理流程101
工作原理102
参考资料102
将就业数据导入R103
准备工作103
处理流程103
工作原理104
更多内容104
参考资料105
就业数据探究105
准备条件105
处理流程105
工作原理107
参考资料107
获取和合并添加附加信息107
准备工作107
处理流程108
工作原理109
添加地理信息110
准备工作110
处理流程110
工作原理113
参考资料114
获取州和县级水平的薪资和就业信息114
准备工作114
处理流程114
工作原理116
参考资料117
可视化薪资的地理分布特性117
准备工作118
处理流程118
工作原理120
参考资料121
探究各行业工作的地理分布情况121
处理流程122
工作原理123
更多内容124
参考资料124
绘制地理空间的时间序列地图124
准备工作124
处理流程125
工作原理128
更多内容128
函数性能测试和比较128
准备工作129
处理流程129
工作原理131
更多内容132
参考资料132
第6章运用税务数据进行应用导向的数据分析(Python)133
简介133
应用导向方法简介134
准备高收入数据集的分析135
准备工作135
处理流程135
工作原理136
导入并熟悉世界各国高收入数据集136
准备工作137
处理流程137
工作原理143
更多内容144
参考资料144
分析并可视化美国的高收入数据集144
准备工作144
处理流程145
工作原理151
进一步分析美国的高收入阶层152
准备工作152
处理流程152
工作原理156
用Jinja2汇报结果157
准备工作157
处理流程157
工作原理162
更多内容162
参考资料163
第7章运用汽车数据进行可视化分析(Python)164
简介164
IPython入门165
准备工作165
处理流程165
工作原理167
参考资料167
熟悉IPython Notebook167
准备工作168
处理流程168
工作原理170
更多内容170
参考资料171
准备分析汽车油耗171
准备工作171
处理流程171
工作原理173
更多内容173
参考资料174
用Python熟悉并描述汽车油耗数据174
准备工作174
处理流程174
工作原理177
更多内容177
参考资料177
用Python分析汽车油耗随时间变化趋势177
准备工作177
处理流程178
工作原理183
更多内容184
参考资料185
用Python调查汽车的制造商和型号185
准备工作185
处理流程185
工作原理189
参考资料189
第8章社交网络分析(Python)190
简介190
理解图和网络191
准备用Python进行社交网络的分析工作192
准备工作192
处理流程193
工作原理193
更多内容193
导入网络194
准备工作194
处理流程194
工作原理196
探索英雄网络的子图196
准备工作197
处理流程197
工作原理199
更多内容199
找出强关联200
准备工作201
处理流程201
工作原理203
更多内容204
找出关键人物204
准备工作205
处理流程205
工作原理208
更多内容209
调查全网的特征215
准备工作216
处理流程216
工作原理217
社交网络中的聚类和发现社群217
准备工作217
处理流程218
工作原理221
更多内容221
可视化图222
准备工作222
处理流程222
工作原理224
第9章大规模电影推荐(Python)225
简介226
对偏好建模227
处理流程227
工作原理228
理解数据229
准备工作229
处理流程229
工作原理231
更多内容231
加载电影评分数据231
准备工作231
处理流程232
工作原理234
寻找高评分电影235
准备工作236
处理流程236
工作原理237
更多内容238
参考资料238
提升电影评分系统238
准备工作238
处理流程238
工作原理239
更多内容240
参考资料240
计算用户在偏好空间中的距离240
准备工作241
处理流程241
工作原理243
更多内容243
参考资料243
计算用户相关性244
准备工作244
处理流程244
工作原理245
更多内容246
为特定用户寻找最好的影评人246
准备工作246
处理流程246
工作原理247
预测用户评分249
准备工作249
处理流程249
工作原理250
基于物品的协同过滤251
准备工作251
处理流程252
工作原理253
建立非负矩阵分解模型254
处理流程255
工作原理255
参考资料256
将数据集载入内存256
准备工作257
处理流程257
工作原理258
更多内容258
导出SVD模型至硬盘259
处理流程259
工作原理260
训练SVD模型261
处理流程261
工作原理262
更多内容263
测试SVD模型264
处理流程264
工作原理264
更多内容264
第10章获取和定位Twitter数据(Python)266
简介266
创建Twitter应用267
准备工作268
处理流程268
工作原理271
参考资料271
了解Twitter API v1.1271
准备工作272
处理流程272
工作原理273
更多内容274
参考资料275
获取粉丝和朋友信息275
准备工作275
处理流程275
工作原理277
更多内容277
参考资料278
提取Twitter用户档案278
准备工作278
处理流程278
工作原理279
更多内容279
参考资料280
避免Twitter速度限制280
准备工作280
处理流程280
工作原理281
存储JSON数据至硬盘281
准备工作282
处理流程282
工作原理282
安装MongoDB283
准备工作283
处理流程283
工作原理284
更多内容284
参考资料285
利用PyMongo将用户信息存入MongoDB285
准备工作285
处理流程285
工作原理286
探索用户地理信息287
准备工作287
处理流程287
工作原理289
更多内容290
参考资料290
利用Python绘制地理分布图290
准备工作290
处理流程291
工作原理292
更多内容293
参考资料294
第11章利用NumPy和SciPy优化数值计算(Python)295
简介295
了解优化的步骤297
处理流程297
工作原理297
更多内容298
识别代码中常见性能瓶颈298
处理流程299
工作原理299
通读代码301
准备工作302
处理流程302
工作原理302
参考资料304
利用Unix time函数剖析Python代码305
准备工作305
处理流程305
工作原理306
参考资料306
利用Python内建函数剖析Python代码306
准备工作306
处理流程306
工作原理307
参考资料308
利用IPython %timeit函数剖析Python代码308
处理流程308
工作原理309
利用line_profiler剖析Python代码309
准备工作310
处理流程310
工作原理311
更多内容312
参考资料312
摘取低处的(经过优化的)果实312
准备工作312
处理流程312
工作原理314
测试NumPy带来的性能提升315
准备工作315
处理流程315
工作原理316
更多内容317
参考资料317
用NumPy重写函数317
准备工作317
处理流程318
工作原理320
用NumPy优化最内层循环322
准备工作322
处理流程322
工作原理324
更多内容325
暂无.
暂无.
暂无.
数据实战手册 R+Python最新最全的试读、书评、目录、简介信息由Python中文网整理提供。
本文链接:http://so.lmcjl.com/news/19858/