第2章数据的搜集
什么是二手资料?使用二手资料需要注意些什么? 与研究内容有关、由别人调查和试验而来、已经存在并会被我们所利用 的资料为二手资料。使用时要评估资料的原始搜集人、搜集目的、搜集途径、搜集时间且使用时要注明数据来源。 (1)资料是谁搜集的?这主要是考察数据搜集者的实力和社会信誉度。 (2)搜集的目的是什么?为了某个集团的利益而搜集的数据是值得怀疑的。 (3)数据是怎样搜集的?搜集数据可以有多种方法,不同方法所采集到的数据,其解释力和说服力都是不同的。如不了解搜集数据所用的方法,很难对数据的质量做出客观的评价。数据的质量取决于数据的生产过程。 (4)什么时候搜集的?对于过时的数据,其说服力自然受到质疑。 另外,使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。 比较概率抽样和非概率抽样的特点。举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。 概率抽样 :指遵循随机原则进行的抽样,总体中每一个单位都有一定的机会被选入样本。当用样本对总体进行估计时,要考虑每个单位样本被抽 ...
第1章导论
什么是统计学? 统计学是 搜集、处理、分析、解释数据 并从中 得出结论 的科学。 数据收集:取得统计数据; 数据处理:将数据用图表等形式展现出来; 数据分析:选择适当的统计方法研究数据,并从数据中提取有用信息进而得出结论。 解释描述统计与推断统计。 描述统计 研究的是 数据搜集、处理、汇总、图表描述、概括与分析 等统计方法。 推断统计 研究的是如何利用 样本数据来推断总体特征 的统计方法。 按照 计量尺度 可分为 分类数据、顺序数据和数值型数据 ; 按照数据的 搜集方法 ,可以分为 观测数据和试验数据 ; 按照被描述的 现象与实践的关系 ,可以分为 截面数据和时间序列数据 。 解释分类数据、顺序数据和数值型数据的含义。 分类数据 是只能归于 某一类别 的 非数字型 数据;(如:人口性别——男、女) 顺序数据 是只能归于 某一有序类别 的 非数字型 数据;(如:产品——一、二、三等品) 数值型数据 是按照 数字尺度测量 的观测值,其结果表现为 具体的数值 。 举例说明总体、样本、参数、统计量、变量 ...
机器学习概述
逻辑回归 逻辑回归是一种广义的线性模型。虽然被称为回归,但在实际应用中常被用作分类,用于估计某个事件发生的概率。例如某用户购买商品的可能性,某病人患有某种疾病的可能性,某广告被用户点击的可能性等。 首先基于线性模型。为了解决分类问题,需要把线性模型的输出做一个变换,利用Sigmoid函数,将实数域的输出映射到(0,1)区间,为输出提供了很好的概率解释。 其次策略方面,采用了交叉熵损失函数; 第三算法方面,为了最小化损失函数,采用了梯度下降方法。 采用L1正则化(使权重稀疏,被称为Lasso Regulation)和L2正则化(权重衰减,被称为Ridge Regulation)改进 线性回归 线性回归是对一个或多个自变量之间关系进行建模的方法。 假设因变量与自变量之间线性相关。 构建损失函数。 通过令损失函数最小来确定参数。 支持向量机 在线性可分时,在原空间寻找两类样本的最优分类超平面。在线性不可分时,加入松弛变量并通过使用非线性映射将低维度输入空间的样本映射到高维度空间使其变为线性可分,这样就可以在该特征空间中寻找最优分类超平面。 在分开数据的超平面的两边建有两个互 ...
Python——第7章 pandas数据分析实战
pandas常用数据类型 一维数组与常用操作 1234567891011121314import pandas as pdimport matplotlib.pyplot as plt#设置输出结果对齐方式pd.set_option('display.unicode.ambiguous_as_wide',True)pd.set_option('display.unicode.east_asian_width',True)#自动创建从0开始的非负整数索引s1=pd.Series(range(1,20,5))#使用字典创建Series,使用字典的“键”作为索引s2=pd.Series({'语文':90,'数学':92,'Python':98,'物理':87,'化学':92})#修改指定索引对应的值s1[3]=-17s2['语文']=94 12print('s1原始数据'.ljust(20, ...
Python——第6章 Numpy库的使用
Numpy 是 Python 专门处理高维数组 (high dimensional array) 的计算的包。官网 (www.numpy.org). 列表和数组区别 列表:数据类型可以不同——3.1413, ‘pi’, 3.1404, [3.1401, 3.1349], ‘3.1376’ 数组:数据类型相同——3.1413, 3.1398, 3.1404, 3.1401, 3.1349, 3.1376 numpy数组及其运算 创建数组 12import numpy as npnp.array([1,2,3,4,5])#把列表转为数组 array([1, 2, 3, 4, 5]) 1np.array((1,2,3,4,5))#把元组转换为数组 array([1, 2, 3, 4, 5]) 1np.array(range(5))#把range对象转换成数组 array([0, 1, 2, 3, 4]) 1np.array([[1,2,3],[4,5,6]])#二维数组 array([[1, 2, 3], [4, 5, 6]]) 数组的创建—定隔定点的 np.a ...
Python——第3章 列表、元组、字典、集合与字符串
列表与列表推导式 1list((3, 5, 7, 9, 11)) # 将元组转换为列表 [3, 5, 7, 9, 11] 1list(range(1, 10, 2)) # 将range对象转换为列表 [1, 3, 5, 7, 9] 1list(map(str, range(10))) # 将map对象转换为列表 ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9'] 1list(zip('abcd', [1,2,3,4])) # 将zip对象转换为列表 [('a', 1), ('b', 2), ('c', 3), ('d', 4)] 1list(enumerate('Python')) # 将enumerate对象转换为列表 [(0, 'P'), (1, 'y'), (2, 't'), (3, 'h'), (4, 'o'), (5, 'n')] 1list(filter(str.isdigit, 'a1b2c3d456')) # 将f ...
Python——第2章 数据类型、运算符与内置函数
赋值语句 格式:变量名=数据 123x=2 x=y=2 #多个变量同时具有相同的值,id(x)查看变量的内存地址 x,y=1,2 #多个变量同时具有不相同的值 x,y=y,x #变量交换 数据类型 整数类型、字符串类型、列表类型 常用内置数据类型 整数、实数、复数 123456789101112131415161718192021222324252627282930import mathprint(math.factorial(32)) # 计算32的阶乘print(0.4-0.3 == 0.1) # 实数之间尽量避免直接比较大小print(math.isclose(0.4-0.3, 0.1)) # 测试两个实数是否足够接近num = 7squreRoot = num ** 0.5 # 计算平方根print(squreRoot**2 == num)print(math.isclose(squreRoot**2, num))---------------------- ...
Tableau——通讯产品销售和盈利能力分析(2021泰迪杯数据分析)
统计产品在当地的销售数据。 设计可视化数字大屏,展示产品的销售情况,分析产品的盈利能力。 基于年度/季度的各个地区、国家、服务分类的销售额与利润分析 从时间维度和空间维度对所有的数据进行分析与预测。对地区、国家、服务分类指标,进行同比增长率、销售额以及利润描述性分析与处理。 按年度分析销售额、利润 各年度地区销售额、利润 各年度国家销售额、利润 ——2020年销售额前 3 名的国家 各年度服务分类销售额、利润 按季度分析销售额、利润 各季度地区销售额、利润 各季度国家销售额、利润 各季度按服务分类销售额、利润 基于年度/季度各国家、服务分类销售额和利润的同比增长率分析 快速表计算中有年度同比增长选项。 按年度分 国家销售额和利润的同比增长率 按服务分类销售额和利润的同比增长率 按季度分 国家销售额和利润的同比增长率 各季度按服务分类销售额和利润的同比增长率 基于服务分类的销售额和利润数据分析 整体性对非洲所有地区、国家进行销售额与利润分析 非洲所有地区、国家销售额分析 非洲所有地区、国家利润分析 非洲各地区、国家有关 ...
Tableau——超市销售额数据分析可视化
使用Tableau自带数据集——超市运营分析,从客户,配送,销售,利润,预测等五个维度进行分析。 数据集描述 运营分析 客户分析可视化 为深度分析客户需求以及更好应对客户需求变化,通过对客户细分,了解客户需求、分析客户的消费特征,从而为运营提供可选择的运营策略。 客户散点图 充分利用客户行为数据,研究客户的个性化需求,分析不同客户对超市的效益影响,便于决策。 客户贡献利润额 通过不同的类别、客户细分以及地区来反映超市的利润差异。 客户交易量排行 客户交易量排行是指客户在一定时间内购买的数量,以此分析客户价值,一般情况下交易量越大客户的价值越大。 客户交易次数 客户交易次数,即购买频率,在超市购买了几次。由此分析客户在一段时间内客户的购买行为的规律。 客户仪表盘分析 配送分析 主要从各省市配送情况、配送准确性、商品发货天数,配送延迟商品这四个维度来分析。 各省市配送情况 原有数据集只有订单时间和发货时间,没有配送天数这一字段,因此需要在数据源新建一个配送天数字段,即 配送天数=发货日期−订单日期配送天数= 发货日期-订单日期 配送天数=发货日期− ...
Python数据挖掘——基于数据挖掘的上市公司财务造假识别(制造业)
赛题背景:作为专业投资者,研究一家上市公司的财务数据是否稳健,需要考虑相关的诸多因素.面对上市公司多年的财务数据报告,投资者可通过数据挖掘,筛选数据指标进行跟踪分析和研究,识别真伪,避免投资踩雷. 要求: (1) 根据各行业的上市公司所提供的财务数据,确定出各行业与财务数据造假相关的数据指标,并分析比较不同行业上市公司相关数据指标的异同. (2) 根据制造业的各上市公司的财务数据,确定第 6 年财务数据造假的上市公司. (3) 根据非制造业的上市公司的财务数据,确定第 6 年财务数据造假的上市公司. 意义:在大数据发展的时代下,通过人工智能、机器学习等智能化手段进行监控预测能够提高公司财务报告中的准确性、以及公司财务是否存在欺诈、隐瞒等行为,是提高公司信用风控的重要因素. 1234567891011121314import pandas as pdimport numpy as np%matplotlib inlineimport matplotlib.pyplot as pltimport seaborn as snscolor = sns.color_palette()from ...
Python数据分析——教育平台的线上课程智能推荐策略(2020泰迪杯数据分析技能赛)
赛题背景:近年来,随着互联网与通信技术的高速发展,学习资源的建设与共享呈现出新的发展趋势,各种网课、慕课、直播课等层出不穷,各种在线教育平台和学习 应用纷纷涌现。尤其是 2020 年春季学期,受新冠疫情影响,在教育部“停课不停学”的要求下,网络平台成为“互联网+教育”成果的重要展示阵地。因此, 如何根据教育平台的线上用户信息和学习信息,通过数据分析为教育平台和用户提供精准的课程推荐服务就成为线上教育的热点问题。 本赛题提供了某教育平台近两年的运营数据,希望参赛者根据这些数据,为平台制定综合的线上课程推荐策略,以便更好地服务线上用户。 users.csv ( 用 户 信 息 表 )、 study_information.csv(学习详情表)和 login.csv(登录详情表),它们的数据说明 分别如表 1、表 2 和表 3 所示。 表 1 users.csv 字段说明 字段名 描述 user_id 用户 id registration_time 注册时间 recently_logged 最近访问时间 learn_time 学习时长(分) numbe ...
Python——安装、插件
安装anaconda 清华大学开源软件镜像站:Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror 安装步骤: 修改jupyter文件存储路径 第一步:首先查找当前路径,打开Anaconda prompt ,输入: 1jupyter notebook --generate-config 第二步:找到 C:\Users\Administrator.jupyter下的 C:\Users\chen_.jupyter\jupyter_notebook_config.py 第三步:找到 C:\Users\Administrator.jupyter下的 # c.NotebookApp.notebook_dir = ‘’,修改为以下路径: 安装插件 窗口分面:Scratchpad Markdown文本高亮:Highlighter Cell标记、锁定:Runtools 代码折叠:Code folding example、document快速获取:Snippets menu PEP8 代码优化:Code pr ...