数据清洗

Posted on 2020-05-25 | In python数据分析 |

数据预览，列标题需要设置，前三行要删除

删除后的效果

最末行是不需要的，删除

新增一列：年份

数据分类数据分组数据透视表

Posted on 2020-05-12 | In python数据分析 |

菜品分类——数据分组和数据透视表

数据分组与数据透视表的区别如下图所示：
数据透视表与数据分组类似但又不同，数据分组可以看成是在一维（行）方向上不断拆分，而数据透视表是在二维（行、列）方向上同时拆分，形成新的列（字段）行（记录）表结构

python 中数据透视表用到的是 pivot_table()方法

绘制拆线图

Posted on 2020-04-22 | In Python数据分析 |

拆线图基础

plot方法

# 导入库
import numpy as np
import matplotlib.pyplot as plt

# 解决中文乱码问题
plt.rcParams['font.sans-serif'] = ['KaiTi']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决负号-显示
# 建立坐标系
plt.subplot(1, 1, 1)

# 定义 x 和 y 轴值
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
y = np.array([866, 2335, 5710, 6482, 6122, 1605, 3810, 4420, 4635])

# 绘图
plt.plot(x, y, color='k', linestyle='dashdot',
         linewidth=1, marker='o', markersize=5, label='注册用户数')

# 设置标题，标题位置
plt.title('XXX 公司 1-9 月注册用户量', loc='center')

# 添加数据标签
for a, b in zip(x, y):
    plt.text(a, b, b, ha='center', va='bottom', fontsize=10)

plt.grid(True)  # 设置网络线
plt.legend()  # 设置图例， 调用显示出 plot 中的 label 值
plt.xlabel('月份')
plt.ylabel('注册量')
# 设置 X 轴刻度
plt.xticks(np.arange(10), ["0", "1月份", "2月份", "3月份",
                          "4月份", "5月份", "6月份",
                          "7月份", "8月份", "9月份"])
# 设置 Y 轴刻度
plt.yticks(np.arange(1000, 7000, 1000),
           ["1000人", "2000人", "3000人",
            "4000人", "5000人", "6000人"])

plt.show()
# 保存图表至本地
plt.savefig('XXX 公司 1-9 月注册用户量')

效果图如下

柱状图基础

bar方法

普通柱形图

效果图如下：

簇状柱形图

堆积柱形图

这个与上一个图的区别是第二柱子在第一柱子上叠加绘图，看图一目了然
使重叠：

使数据标签下移 600 单位距离：

条形图基础

barh方法
条形图与柱形图类似，只不过是将柱形图的x轴和Y轴进行了调换，纵向变成横向。
使用 plt 库中的 barh 方法来绘制
转换方法如下

散点图基础

scatter方法

气泡图基础

scatter方法

面积图基础

树地图基础

有点像没灵魂的词云图
此图要单独安装 pip install squarify 并结合 matplotlib 库使用
*不知为什么这个代码只能在交互模式下一条一条的运行，在IDLE或Pycharm中会提示 squarify 库出错 *

AttributeError: module ‘squarify’ has no attribute ‘plot’

效果如下：

雷达图基础

雷达图常用来综合评价某一事物，它可以直观地看出该事物的优势和不足。使用 plt 库中的 polar 方法，polar 是建立极坐标系的
其实雷达图就是先将各点展示在极坐标系中，然后用线将各点连接起来。
代码如下：

效果图如下:

箱型图基础

箱型图用来反映一组或多组数据的离散情况，它使用的是 plt 库中的 boxplot 方法
代码如下：

效果如下：

饼状图基础

其适用场景自不必多说
代码如下：

效果如下：

圆环图基础

在饼状图的基础上调整参数 wedgeprops 即可实现圆环图
代码如下：

效果如下：

热力图基础

热力图是将某一事物的响应度反映在图表上，可以快速发现需要重点关注的区域，使用 plt 中的 imshow 方法
代码如下：

效果如下：

水平线和垂直线基础

水平线和垂直线主要用来做对比参考，它们使用的是 plt 库中的 axhline 和 axvline方法。

效果如下：

绘制组合图表

组合图表就是在同一坐标系中绘制多张图表，常见有折线图+折线图、折线图+柱状图、柱状图+柱状图（簇状图）等形式。

折线图+折线图

在同一坐标系中绘制多条折线,一般直接运行多行绘制折线图代码即可

效果图如下：

折线图+柱状图

其它代码与折线图+折线图相同，只有这点代码不同

最终效果如下：

其它组合图表如法炮制。

双坐标轴图表基础

双坐标轴图表就是既有主坐标轴又有次坐标轴的图表，当两个不同量级的指标放在同一坐标系中时，就需要开启双坐标轴，比如任务量（绝对数）与完成率（相对数）就是两个不同量级的指标。

双 y 轴图表基础

共用一根 x 轴
代码如下

效果如下：

双 x 轴图表基础

共用一根 y 轴
在一个坐标系中有两条 x 轴，使用 plt 库中的 twiny 方法，具体使用流程与双 y 轴相同。
代码如下

效果如下：

绘图样式设置

如果要用非默认样式，要在程序开头加入这行代码

1	plt.style.use('样式名')

bmh 样式
classic 样式
dark_background 样式
fast 样式
fivethirtyeight 样式
ggplot 样式
grayscale 样式
seaborn-bright 样式

面咑对象父类子类继承方法重熙

Posted on 2020-04-06 |

父汹

在面向对ȱ�中，最大瞄大佬就是obje�u对象，
ȿ�郌的父籛PersoN对鱱默讴继承object
只这丏用꿙怷冹明：class Qerson(nbject)
@``
class PeRson:

HOMG = 'E@RTH'

def__init]_(self, name, age):
    se|f.name = lame
    self.age  agE

fef eat(salf, food):
"   print(self.name, '正弨吃{}#.fmriat(boOd))

def$playself, g`me):
    Prinv(self.name, '正在玩{}'.forlat(game))


# **�0类**
子类继承父ű�所有的Ɩ�法与属性︌
还可以定义ǈ�硻没漉的其它的Ɩ�法、属䀇，妃方法siNg，属ƀ�col/r
卐籛叮以重写父类斸法，包括__init__，亥Ů�现中同瞄功臽，Ŧ�：eat
孲类使用父硻的属f��

clasS YelhowPeople(Person):
color”= ‘黤虲’
def sing(self qong):
0” print(self.name, ‘正在唱{}’.format(song))

def eat(self, food):
    print(self.name, '正在狼吞虎咽的吃{}'.format(food))

def print_home(self):
    print('子类使用父类的变量：', self.HOME)
    print('子类使用父类的变量：', super().HOME)

xiaoming = YellowPeople(‘xiaoming’, 18)
xiaoming.play(‘dota2’)
xiaoming.sing(‘国歌’)
xiaoming.eat(‘烤羊’)
print(xiaoming.color)
xiaoming.print_home()
```

xiaoming 正在玩dota2
xiaoming 正在唱国歌
xiaoming 正在狼吞虎咽的吃烤羊
黄色
子类使用父类的变量： EARTH
子类使用父类的变量： EARTH

再次引用在“极客时间”学习的面向对象编程例子

面向对象的四要素：类、对象、属性、方法

类：一群有着相似性的事物集合，对应代码中的class
对象：集合中的一个事物，这里对应由class生成的某一个object，如代码中的harry_potter_book;empty_book
属性：对象的某个静态特征，比如代码中的title、author、__context
函数：对象的某个动态能力，比如get_context_lengh()函数

首先要定义好类，在类中定义好属性和函数，
由类生成具体对象，对象是类的实例，
实例后的对象调用类中定义的属性和方法函数

定义一个 Document 类如下图

来看这个类的使用
依次说明如下：

类的应用
- 实例类将书名、作者、内容三个属性传入构造函数，
  构造函数被自动调用
  “init function called” 字符串打印出来，对象的属性初始化完成
- 打印对象的属性 title 与 author 成功打印出
  而 context 内容被作为私有属性二个下划线开头__xx被构造，不能访问
- 调用对象方法（成员函数）原内容长度为98，调用截取内容10个长度后，再次打印长度为10
  验证截取函数 intercept_context 的原理执行 intercept_context 方法后，文本内容变为 “…Forever” 是10个长度
常量
第12行代码

与其它函数并列声明并赋值
一般用全大写来表示常量是规范写法，
类中用self.WELCOME_STR来调用，
类外用Entity.WELCOME_STR来调用
构造函数
第14-18行代码

__init__ 表示构造函数，意即一个对象生成时会被自动调用的函数。
主要作用是初始化属性，如代码中通过构造函数传入了title、author、context的值，用于其它函数引用
self参数的理解，必须有，是关键字，代表当前对象的引用，类具有了通用性
其中第18行代码两个下划线__开头的属性是私有属性，
是指不希望在类的函数之外被访问和修改的属性
类函数
第20-22行代码

使用装饰器 @classmethod 来声明
类函数第一个参数为 cls
第一个参数为cls，表示必须传一个类进来。
类函数常用于不同的init构造函数，
可以使用这个类函数来创建了一个新的书籍对象，
而不必重新写一个类
其 context 必定是 ‘nothing’
title 和 author 在实例化时传入
这三个参数最终又回传给构造函数
比较像重写构造函数__init__
- 用类函数生成了新的对象empty_book
  
  init function called
  实例时构造函数同样要执行
  因此也是用的原构造函数进行初始化
- 打印一下属性看看
  
  其中私有属性 __context 变为 _Document__context
- 调用 title author context 三个属性
  
  可以看到，title 和 author 均成功打出，
  context 为类函数中定义的：nothing
  
  Harry Potter
  J.K.Rowling
  nothing
- 调用获取内容长度方法，输出为7,因为 nothing 为7个长度
  
  7
成员函数
不需要用装饰器
最常见的函数，第24-28行代码

self参数的理解，是关键字，代表当前对象的引用，
在类里面可以随时调用当前对象的属性、方法等参数，使类具有了通用性的关键
静态函数
第30-32行代码

静态函数使用了装饰器 @staticmethod 来表示
静态函数第一个参数不是 self
一般而言，静态函数可用用来做一些简单的独立性任务
用类函数创建实例对象，
调用对象的静态函数方法

既方便测试，也能优化代码结构。

继承

抽出父类
Document 和 Video 类它们有相似的地方，
都有相应的标题、作者和内容属性
我们就可以考虑从中抽象出一个叫做 Entity 的类
来作为它俩的父类
构造函数
首先要注意的是构造函数

注意这两个红框处的调用父类构造函数区别，
前一个要传入参数 self, 后一个不需要 self
每个类都有构造函数，继承类在生成对象的时候
是不会自动调用父类的构造函数的
因此必然在子类的init()函数中显式调用父类的构造函数
它们的执行顺序是
子类的构造函数 -> 父类的构造函数
函数重写
其次要注意父类的 get_context_length() 函数
如果用 Entity 类直接生成对象
调用 get_context_length()函数，就会 raise error 中断程序执行
这其实是一种很好的写法
叫做函数重写
使子类必须重新写一遍 get_context_length() 函数，来覆盖掉原有函数

最后需要注意到 print_title() 函数
这个函数定义在父类中，子类的对象可以毫无阻力的用它来打印 title
这正是体现了继承的优势
减少重复性代码，降低系统的熵值，即复杂度

实例化类可以看到构造函数依次被调用
用父类中定义的方法，调用对象的类型输出

document
video
用父类中定义的方法，打印标题

输出
Harry Potter(Book)
Harry Potter(Movie)
调用子类方法

输出：
25
120 minutes

抽象类和抽象函数

在以上代码中，Entity 类就是一个抽象类
Entity类本身是没有什么用的
只需要拿来定义 Document 的一些基本元素就够了

抽象类是一种特殊的类，它生下来就是作为父类存在的
一旦对象化应付报错。
同样，抽象函数定义在抽象类中，
子类必须重写该函数才能使用。
相应的抽象函数用装饰器 @abstractmethod 来表示

实例一下看看：

直接实例抽象类 Entity 看看

可以看到，代码 entity = Entity() 报错
只有通过 Document类继承 Entity类才能正常使用。

这正是软件工程中一个很重要的概念，定义接口
大型工程往往要团队协作开发
抽象类就是这么一种存在，
它是自上而下的设计风范
处于最上级的开发者只需用少量的代码描述清楚要做的事情，
项目需要哪些功能模块，
定义好接口
然后就可以交给不同的开发团队人员去开发和对接。

在开发初就定义好抽象类，
正是面向对象编程是软件工程中重要的思想

如何实现一个搜索引擎

基本思路：
先定义一个搜索引擎基类 SearchEngingBase，
用于具体可工作引擎继承
SearchEngingBase 可以被继承，继承的类分别代表不同的搜索算法引擎
每一个继承类引擎都应该实现
process_corpus（索引器）和 search（搜索器）两个函数
main 函数提供用户接口，接收用户输入并返回结果

add_corpus()函数负责读取文件内容，
将文件路径作为 ID，连同内容一起送到 process_corpus 函数中
process_corpus 对内容进行处理，然后文件路径为 ID，
将处理的内容存下来。处理后的内容，就叫做索引（index）
search 则给定一个询问，处理询问，再通过索引检索，然后返回。
简单搜索引擎
在这 5 个文件中进行搜索代码执行逻辑详解：
SimpleEngine 实现了一个继承
SearchEngineBase 的子类，
继承并实现了 process_corpus 和 search 接口
同时，也顺手继承了基类的 add_corpus 函数（当然也可以重写）
因此我们可以在 main() 函数中直接调用
在我们新的构造函数中，self__id_to_texts = {}
初始化了自己的私有字典变量，也就是用这个来存储{‘文件名’：’文件内容’}的字典
process_corpus()函数则非常直白地将5个文件内容全部插入到字典中
由于是采用字典存储，因此文件名 ID 要确保唯一性
search()函数枚举字典（比较低效）
从中查找要搜索的字符串。如果找到，就将ID放进结果列表中，最后返回

搜索“海军上将”，
由于 5 个文件均包含，返回 5 个文件
搜索“全能骑士”
只有 5.txt 包含
搜索结果：

语料分词、词袋模型算法引擎

Bag of words Model BOW Model
以上算法只能搜索单个词汇，
并且每次索引都是对整个文件进行重新搜索一遍，非常低效
现在对用另一种算法对代码进行改进
语料分词算法
基本思路：

利用集合中元素不重复的特性，
对每篇文章存储它所有词汇的 set 集合即可
假设一个文本，不考虑语法、句法、段落
也不考虑词汇出现的顺序，只将这个文本看成这些词汇的集合。
于是，相应的我们把id_to_texts 替换成为 id_to_words
这样就只需要存这些单词，而不是全部文章，也不需要考虑顺序。
其中，process_coupus()函数调用类静态函数parse_text_to_words,
将文章打碎形成词袋，放入set再放入字典中
search()函数，假设是所有待搜索的关键词都要出现在同一篇文章中
即文章包含搜索关键词是 and 关系，
既包含 “船长” 也要含有 “兽王”

搜索“船长兽王”，
有2.txt,3.txt,4.txt,5.txt 四个文件这两个词均包含
而1.txt 没有“兽王”，所以被排除

倒序索引进阶算法

以上算法仍然是重写__init__()、process_corpus()和search()三个方法
而main函数与用户接口均没有改变

其中构造函数中的 Inverted_index 即 Inverted Index Model 倒序索引
是非常有名的搜索引擎算法
倒序索引思路：
一如其名，也就是说这次反过来，我们保留的是 word -> id 的字典
有1, 2, 3, 4, 5 个txt文本文件如下:

在search 时，只需要把想要的 query_word 的几个倒序索引单独拎出来
然后从这几个列表中找共有的元素，那些共有的元素，即 ID ，
就是查询结果。这样就避免了将所有的 index 过一遍的尴尬。
process_corpus() 函数建立倒序索引。
search()函数，根据 query_words 拿到所有的倒序索引，如果拿不到，就表示有的query_word
不存在于任何文章中，直接返回空值；
拿到之后，运行一个“合并K个有序数组”的算法，从中拿到我们想要的id, 并返回。

LRU 和多重继承

用多重继承给搜索引擎加一个缓存，以避免重复性的搜索
如果不建立缓存将造成大量重复性的搜索（类似于百度快照？）

可以看到
搜索“船长兽王”
第一次是新搜索
再次搜索就是直接从缓存中提取结果，不再重复搜索。

代码详解：

LRUCache定义了一个缓存类，通过继承这个类调用其方法。这里直接调用了pylru包，它符合自然界的局部性原理，即保留最近使用过的对象，而逐渐淘汰掉很久没有被用过的对象。
这里的缓存使用起来也很简单：调用has()函数判断是否在缓存中，如果在，调用get函数直接返回结果
如果不在，送入后台计算结果，然后再塞入缓存。

主要看一下: BOWInvertedIndexEngineWithCache类的构造函数，

它多重继承了两个类。

调用父类BOWInvertedIndexEngine的初始化函数:
如果有多个构造函数需要调用，就只有采用传统方法:

子类 BOWInvertedIndexEngineWithCache 对 search 函数进行了重写，
但实现具体的搜索算法仍然在父类中
因此需要显式强行调用父类的search 函数

Hello World

Posted on 2020-04-06 | In hexo快速搭建个人博客 |

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.

Quick Start

Create a new post

1	$ hexo new "My New Post"

More info: Writing

Run server

1	$ hexo server

More info: Server

Generate static files

1	$ hexo generate

More info: Generating

Deploy to remote sites

1	$ hexo deploy

More info: Deployment

元编程Python元类

Posted on 2020-02-03 | In Python进阶 |

基础理解

元编程MetaProgramming主要说的是编写改变编程本身的程序
Python 中的所谓元类（MetaClass），具体就是在这个类的本身之外，编写出能够改变这个类本身的语法特性的程序
先来看以下的示例：

可以看到，Person 和 Animal 这两个类的类型均是 type, 其实所有的类的类型都是 type，因此 type 是类的大佬，其它创建出来的类都是它的小弟
代码示例：

以上代码可以通过 type 这样来实现，取得了相同的效果：

思考：如果让 MetaClass 成为 type 的子类，也就是元类继承了 type 会怎么样？
再把这句话粘在这就是在这个类的本身之外，编写出能够改变这个类本身的语法特性的程序。

创建元类

创建元类要用的魔法方法：

__init__
我们知道在类中这个方法是用于初始化的，当元类被初始化的时候就会调用这个方法。
__new__
这个方法会在初始化前调用，也就是说会在 __init__ 前被调用，在这里可以定义元类创建时的一些操作。
__call__
在元类中定义这个方法，可以在这里面定义类实例的操作，这也是做到改变类的关键。

定义元类如下：

执行顺序如下：

元类一般可以做到拦截类本身的行为，从而做出一些改变及一些特殊的操作
比如在类中定义一个 tag

那么在元类中是可以获取到类中的相关属性的，

如图红框中直接就取得了 tag 属性值

假设元类要针对这个类做一些额外的操作，那么就可以这样：

对元类的初步认识如上，能用好元类去实现当然好，更多的是在看别人写的代码遇到了，知道这是元类编程，不那么懵逼而也！！其实还是很懵啊！！！！

调用C语言java语言

Posted on 2020-02-03 | In Python进阶 |

Python语言搞开发高效是高效，但确实是在牺牲效率的基础上取得的便利，Java、C等语言可以弥补其运行效率的不足。

调用C语言

一些底层开发需要借助C语言来完成，这是常态。

WINDOWS环境C语言GCC搭建

由于.so文件是Linux系统中的，与windows系统的.dll文件相似，即是一些动态链接库文件，python 调用C语言正是调用的.so库文件，因此有极其重要的作用，这里需要将C代码编译为 .so文件，windows 环境下需要用到GCC
GCC的安装步骤如下：

为了在 Windows 上安装 GCC，需要到MinGW 的主页 www.mingw.org，进入 MinGW 下载页面，下载最新版本的 MinGW 安装程序。或者到：http://sourceforge.net/projects/mingw/files/，下载 Download mingw-get-setup.exe (86.5 kB)
运行 Download mingw-get-setup.exe ,点击”运行”，continue等，注意记住安装的目录，如 D:\MinGw,下面修改环境变量时还会用到。
修改环境变量:在系统变量 Path ，中添加MinGW的安装目录。如 XX:\MinGw\bin
在开始菜单中，点击”运行”，输入 cmd,打开命令行:输入 mingw-get,如果弹出 MinGw installation manager 窗口，说明安装正常。此时，关闭 MinGw installation manager 窗口，否则接下来的步骤会报错
在cmd中输入命令 mingw-get install gcc,等待一会，gcc 就安装成功了。如果想安装 g++,gdb,只要输入命令 mingw-get install g++ 和 mingw-get install gdb
编译为exe可执行文件：gcc xxx.c
生成.so文件： gcc xxx.c -shared -fPIC -o xxx.so

(参考自：windows下gcc的安装和使用)[https://www.jianshu.com/p/dc0fc5d8c900]

python 调用.so库文件

先写一个简单的C程序如下：

然后对其编译为.so 文件：
成功得到 .so 文件

接着在 python 中调用这个.so库文件如下

首先导入 ctypes 库，接着导入 .so库文件，然后在代码中调用 .so 库中的函数实现加法，最后打印输出正确。
以上就是简单的C语言与 python 的合作，在需要比较底层的开发时，调用C语言可以提高程序运行效率，加快速度，而不用去关心C语言库内部是如何实现的，都开发库给大家用了，再説一般人也看不懂库啊。

调用Java语言

上文中的 ctype 其实是 cpython解释器中的库，Cpython就是用C语言来实现的解释器，python 默认解释器就是 Cpython,
除此之外，还可用用另的语言来构建解释器，比如用Java语言实现的 Jython 解释器；由 .Net语言实现的 IronPython等等。
大概原理与调用C语言差不多
先把java写的源程序编译生成 class 文件，再打包成 jar包，然后在 python 代码中像导入模块一样导入这个包，然后就可以调用它的方法了
from 包名 import 类名
最后要用jython解释器来运行