自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

泛泛之素

无他、唯手熟尔

  • 博客(23)
  • 资源 (1)
  • 论坛 (1)
  • 收藏
  • 关注

原创 《疯狂java讲义》学习(1):数据类型与运算符

java数据类型Java语言是强类型(strongly typed)语言,意思是每个变量和每个表达式都有一个在编译时就确定的类型,所以,所有的变量必须显式声明类型,也就是说,所有的变量必须先声明,后使用。类型限制了一个变量能被赋的值,限制了一个表达式可以产生的值,限制了在这些值上可以进行的操作,并确定了这些操作的含义。强类型语言可以在编译时进行更严格的语法检查,从而减少编程错误。java数据...

2018-12-31 22:55:47 499

原创 python数据可视化: 使用plotly

plotly是一款强大的作图工具,可以快速制作各种精美的图表,而且生成的图表可以实时与用户产生交互.数据链接在这里2012-2017年,27个美国和3个加拿大城市以及6个以色列城市的每小时天气数据,包括温度、湿度、气压、风向、风速、天气情况数据plotly作图先导入库:import pandas as pdimport numpy as npfrom plotly.offline ...

2018-12-30 18:56:03 4509

原创 python数据可视化: 使用seaborn(下)

数据详细请见上一篇.数据载入:import pandas as pdimport numpy as npfrom matplotlib import pyplot as plt, cmimport seaborn as snsfrom sqlalchemy import create_engineimport sqlite3import warnings%matplotlib...

2018-12-29 12:43:12 2672

原创 python数据可视化: 使用seaborn(上)

数据数据集是kaggle上关于steam游戏的数据,链接在此数据解释:name: 游戏名称average_2weeks: 最近两周不知啥的平均值数据集上也没有写average_foreve: 同上owners: 多少人把游戏加入游戏库players_foreve: 多少人玩过游戏negative: 不喜欢人数positive: 喜欢人数price: 价格(美分)publis...

2018-12-28 15:25:34 2439

原创 python数据可视化: 使用matplotlib

matplotlib 使用2D图属性:import pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport warningswarnings.filterwarnings('ignore')# 设置风格plt.style.use('ggplot')%matplotlib inline散点图x ...

2018-12-28 08:59:36 1866

原创 python数据可视化: 使用 pandas

数据链接以下是本数据集的13个特征变量的详细说明:order_id:订单ID,数字组合而成,例如4283851335。order_date:订单日期,格式为YYYY-MM-DD,例如2013-10-17。order_time:订单日期,格式为HH:MM:SS,例如12:54:44。cat:商品一级类别,字符串型,包含中文、英文。attribution:商品所属的渠道来源,字符串型,...

2018-12-26 16:18:58 2225

转载 解决jupyter中matplotlib中文乱码问题

方法一:第一步:系统中文字体查看[hadoop@p168 ~]$ fc-list :lang=zh/System/Library/Fonts/STHeiti Medium.ttc: 黑体-简,黑體-簡,Heiti SC,黒体-簡,Heiti-간체:style=中等,中黑,Medium,Halbfett,Normaali,Moyen,Medio,ミディアム,중간체,Médio,Средний,...

2018-12-26 12:47:04 1918

原创 python数据分析:内容数据化运营(下)——基于多项式贝叶斯增量学习分类文本

案例背景及数据见上一篇案例实现导入模块import reimport tarfileimport osimport numpy as npfrom bs4 import BeautifulSoupfrom sklearn.feature_extraction.text import HashingVectorizer # 文本转稀疏矩阵from sklearn.naive_b...

2018-12-20 18:29:46 1418

原创 python数据分析:内容数据化运营(中)——基于潜在狄利克雷分配(LDA)的内容主体挖掘

案例背景本案例是从一堆新闻文件中建立相应的主题模型,然后得到不同模型的主题特点,并通过对新文本数据集的预测得到其可能的主题分类。相关知识TF-IDFTF-IDF(term frequency–inverse document frequency)是一种针对关键字的统计分析方法,用来评估关键字或词语对于文档、语料库和文件集合的重要程度。关键字的重要程度跟它在文档中出现的次数成正比,但同时跟它...

2018-12-20 16:50:06 1981 3

原创 python数据分析:内容数据化运营(上)——知识点

何为数据化运营内容运营是指基于内容的策划、编辑、发布、优化、营销等一系列工作,主要集中在互联网、媒体等以内容为主的行业领域。内容运营根据内容生产方式的不同可分为UGC、PGC和OGC三种。UGC(User-generated Content),用户生产内容。这是论坛、贴吧、微博时代的主要内容生产方式,内容主要由参与内容载体的用户产生,运营方本身不产生任何实质性内容。这些用户一般都是非专业“写...

2018-12-20 13:01:02 3486

原创 python数据分析:流量数据化运营(下)——基于自动K值得KMeans广告效果聚类分析

案例背景某企业由于投放的广告渠道比较多,需要对其做广告效果分析以实现有针对性的广告效果测量和优化工作。跟以应用为目的的案例不同的是,由于本案例是一个分析型案例,该过程的输出其实是不固定的,因此需要跟业务运营方具体沟通需求。以下是在开展研究之前的基本预设条件:广告渠道的范畴是什么?具体包括哪些渠道?——所有站外标记的广告类渠道(以ad_开头)。数据集时间选择哪个时间段?——最近90天的数据...

2018-12-19 22:34:19 2489 5

原创 python数据分析:流量数据化运营(中)——流量数据波动原因下探分析

从细分到多层下钻数据分析细分是网站分析的基本方法,也是数据分析的基本思路。细分分析的过程是对整体数据进行层层拆分,然后找到影响整体的局部因素。步骤1:全站流量按来源模块可细分为广告、SEM、SEO和直接输入(假设只有4个模块)。细分发现广告是网站流量的主要来源(昨日访问量占比82%),访问量增长2194,比例为67%,说明了广告是网站访问量增长的主要驱动因素。步骤2:对广告模块做进一步细分...

2018-12-19 17:19:26 3685 3

原创 python数据分析:流量数据化运营(上)——知识点

流量数据化运营流量值从数字设备上访问企业的网站、app应用、智能设备的用户行为,它主要包括用户从哪里来,在企业相关载体上有哪些行为、产生了哪些转化等。媒体信息时代,用户行为移动化、需求个性化的复杂背景下,企业想要获得用户关注愈发困难。并且随着营销成本的增加,企业流量能够更高的转化为客户,精准营销需求日益突出。流量数据化运营需要解决的本质问题提高转化率的问题。流量采集分析系统工作机制流量...

2018-12-19 13:55:24 5564 6

原创 python数据分析:商品数据化运营(下)——基于投票组合模型的异常检测

本案例用到的主要技术包括:基本预处理:使用DictVectorizer将字符串分类变量转换为数值型变量、使用SMOTE对不均衡样本做过抽样处理。数据建模:基于cross_val_score的交叉检验、基于LogisticRegression、RandomForest、Bagging概率投票组合模型做分类。案例数据以下是本数据集的13个特征变量的详细说明:order_id:订单ID,...

2018-12-18 22:23:06 1750

原创 python数据分析:商品数据化运营(中)——基于参数优化的Gradient Boosting的销售预测

本案例需要使用超参数交叉检验和优化方法GridSearchCV以及集成回归方法GradientBoostingRegressorGridSearchCV与GradientBoostingRegressorGridSearchCVGridSearchCV用于系统地遍历多种参数组合,通过交叉验证确定最佳效果参数,其实就是穷举法,遍历所有组合。GridSearchCV,它存在的意义就是自动调参,只...

2018-12-18 16:56:50 2113

原创 python数据分析:商品数据化运营(上)——知识点

商品数据运营指标销售类指标订单量/商品销售量订单量指用户提交订单的数量,计算逻辑去重后的订单ID的数量。商品销售量又称销售件数,指销售商品的数量。订单金额/商品销售金额订单金额为用户提交订单时的金额,又称为应付金额。订单金额是用户真正应该支付的金额。计算公式为:订单金额 = 商品销售金额 + 运费 - 优惠凭证金额 – 其他折扣(如满减)商品销售额是指商品销售的金额,商...

2018-12-18 13:37:56 3923 2

原创 python数据分析:会员数据运行(下)——基于AdaBoost的营销响应预测

何为AdaBoostAdaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为...

2018-12-10 16:43:12 1713 3

原创 python数据分析:会员数据化运营(中)——RMF分析

何为RFM模型分析RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。该机械模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱3项指标来描述该客户的价值状况。RFM的含义:R(Recency):客户最近一次交易时间的间隔。R值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。F(Freq...

2018-12-08 16:59:35 3606 5

原创 python数据分析:会员数据化运营(上)——知识点

会员数据化运营解决问题:会员的生命周期状态是什么;会员的核心诉求是什么;会员的转化习惯和路径是什么;会员的价值如何;如何扩大市场覆盖、获得更多的新会员;如何更好地维系老会员;应该在什么时间、采取何种措施、针对哪些会员做哪些运营活动;在特定运营目标下,应该如何制定会员管理策略,包括行为管理、体验管理、增值服务、信息管理、营销管理、客户关怀等。运营指标:会员新增指标:注册会员,...

2018-12-07 19:29:32 2910

原创 python数据分析:基于协同过滤的电影推荐算法

协同过滤协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人透过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其...

2018-12-07 12:00:19 5906 7

原创 python数据分析:时间序列分析(Time series analysis)

何为时间序列分析:时间序列经常通过折线图绘制。时间序列用于统计,信号处理,模式识别,计量经济学,数学金融,天气预报,地震预测,脑电图,控制工程,天文学,通信工程,以及主要涉及时间测量的任何应用科学和工程领域。时间序列分析包括用于分析时间序列数据的方法,以便提取有意义的统计数据和数据的其他特征。时间序列预测是使用模型根据先前观察到的值预测未来值。虽然回归分析通常采用的方式是测试理论,即一个或多个...

2018-12-06 14:01:20 11147 11

原创 python数据分析:异常检测分析(Anomaly detection analysis)

何为异常检测在数据挖掘中,异常检测(anomaly detection)是通过与大多数数据显着不同而引起怀疑的稀有项目,事件或观察的识别。通常情况下,异常项目会转化为某种问题,例如银行欺诈,结构缺陷,医疗问题或文本错误。异常也被称为异常值,新奇,噪声,偏差和异常。数据异常可以转化为各种应用领域中的重要(且常常是关键的)可操作信息。 例如,计算机网络中的异常流量模式可能意味着被黑客窃取的计算机在...

2018-12-02 13:45:28 6433

原创 python数据分析:关联规则学习(Association rule learning)

何为关联规则学习关联规则学习是一种基于规则的机器学习方法,用于发现大型数据库中变量之间的有趣关系。它旨在使用一些有趣的度量来识别在数据库中发现的强规则。这种基于规则的方法在分析更多数据时也会生成新规则。假设数据集足够大,最终目标是帮助机器模拟人类大脑的特征提取和新未分类数据的抽象关联能力。基于强有力规则的概念,Rakesh Agrawal,TomaszImieliński和Arun Swami...

2018-12-01 14:58:03 8370 10

工作明细 job_to_map

dash作图主体分为两大部分: 一部分是数据部分data,二部分是呈现部分layout。 由于是在网页上呈现,所以layout部分的编写,是基于html语言的的一些标签。 看一下代码:

2018-01-02

泛泛之素的留言板

发表于 2020-01-02 最后回复 2020-06-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除