无题
/images/manjaro_w3m.thumbnail.png

终端里浏览网页的感觉很奇妙

在 reStructuredText 中统一管理引用链接

最近几天又尝试了下 latex, 发现 Bibliography 的理念很好。它将文档中所有资料引用统一保存到 .bib 文件中,然后在正文中以别名的形式插入。如果有需要的话,还可以自定义引用的显示格式。这大大简化了参考文献的管理和使用:平时统一维护所有的参考文献,甚至你一生中只需维护一份 .bib 文件;而写作时不必麻烦地复制粘贴,用别名就可以方便地插入参考文献。

如果要在「现代」文档处理软件中寻找对应的话,大约相当于 LibreOffice 的「Navigator」功能或者其它软件的「媒体库」功能。不同之处在于 Bibliography 针对纯文本文件而优化,不止针对单份文档还能在所有文档中依需要载入。

尽管笔者平时写博客时并不用参考资料,但插入链接是很常见的操作。而该操作还是挺麻烦的——通常需要在浏览器中输入网址,等待其打开,然后分两次粘贴网址以及网页标题到 VimR 编辑器中。如果能够使用 Bibliography 的方式管理引用链接,则插入链接会方便许多——仅需麻烦一次,则全站博客均可以别名方式引用,毋需再次打开浏览器。显然这种统一管理有利于写作时的思维连贯性。而且今后如果有额外需求,比如想知道某链接在全站被引用了多少次,直接使用 aggrep 命令搜索一下即可。

另外一个麻烦点在于:博客的站内链接显然有利于读者快速寻找相关内容并跳转浏览,比如 tags 就是站内链接优化很好的一个点。然而插入 tags 也是个比较麻烦、容易打断思路的事情。完全可以将博客内的 tags 「封装」一下,在任何文章中都可以随时快速地插入 tag。实际上,也可以不局限于 tags,一些相对固定的链接均可用相同的手法操作。

于是笔者花费了半天的时间试验了一下,发现完全可以使用 reStructuredText 的 include 指令实现类似 Bibliography 的功能,对全站所有的链接引用进行统一管理。以下将简单的介绍一下我的做法。

Read more…

数据可视化--Seaborn

No.1 Seaborn 和 Matplotlib 对比

用经典的鸢尾花的数据为例子,来对比一下 seaborn 和 matplotlib

In [64]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from pandas import Series, DataFrame
In [65]:
iris = pd.read_csv('https://raw.githubusercontent.com/pydata/pandas/master/pandas/tests/data/iris.csv')
In [66]:
iris.head()
Out[66]:
SepalLength SepalWidth PetalLength PetalWidth Name
0 5.1 3.5 1.4 0.2 Iris-setosa
1 4.9 3.0 1.4 0.2 Iris-setosa
2 4.7 3.2 1.3 0.2 Iris-setosa
3 4.6 3.1 1.5 0.2 Iris-setosa
4 5.0 3.6 1.4 0.2 Iris-setosa

然后里面的 Name 一共有 3 个,3 个种类。

In [67]:
iris.Name.unique()
Out[67]:
array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)
In [68]:
iris_groupby = iris.groupby(iris['Name'])
In [69]:
iris_groupby.get_group('Iris-setosa')[:5]
Out[69]:
SepalLength SepalWidth PetalLength PetalWidth Name
0 5.1 3.5 1.4 0.2 Iris-setosa
1 4.9 3.0 1.4 0.2 Iris-setosa
2 4.7 3.2 1.3 0.2 Iris-setosa
3 4.6 3.1 1.5 0.2 Iris-setosa
4 5.0 3.6 1.4 0.2 Iris-setosa
In [70]:
iris_groupby.get_group('Iris-versicolor')[:5]
Out[70]:
SepalLength SepalWidth PetalLength PetalWidth Name
50 7.0 3.2 4.7 1.4 Iris-versicolor
51 6.4 3.2 4.5 1.5 Iris-versicolor
52 6.9 3.1 4.9 1.5 Iris-versicolor
53 5.5 2.3 4.0 1.3 Iris-versicolor
54 6.5 2.8 4.6 1.5 Iris-versicolor

然后下面用 matplotlib 画图。

In [71]:
color_map = dict(zip(iris.Name.unique(), ['blue', 'green', 'red']))
In [72]:
color_map
Out[72]:
{'Iris-setosa': 'blue', 'Iris-versicolor': 'green', 'Iris-virginica': 'red'}
In [73]:
for species, group in iris.groupby('Name'):
    plt.scatter(group['PetalLength'], group['SepalLength'],
               color=color_map[species],
               alpha=0.3, edgecolor=None,
               label=species)
plt.legend(frameon=True, title='Name')
plt.xlabel('petalLength')
plt.ylabel('sepalLength')
plt.show()

图中三种颜色表示三种类型的花,SepalLength 表示萼片长度,PetalLength 表示花瓣长度。

有没有发现代码好长啊,而且容易出错。再看看 seaborn。

In [74]:
sns.lmplot('PetalLength', 'SepalLength', iris, hue='Name', fit_reg=False)
plt.show()

一行代码……有没有一种呵呵哒的感觉?这差距也太大了。

No.2 Seaborn 直方图和密度图

首先回顾一下 matplotlib 画直方图密度图。

In [75]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from pandas import Series, DataFrame
In [76]:
s1 = Series(np.random.randn(1000))
In [77]:
plt.hist(s1)
plt.show()
In [78]:
s1.plot(kind='kde')
plt.show()

再看看 seaborn 是怎么画的。

In [79]:
sns.distplot(s1, hist=True, kde=True)
plt.show()

人家把两个图结合到一起来当然也可以改的。

In [80]:
sns.distplot(s1, hist=False, kde=True, rug=True)
plt.show()

下面加了一层,表示分布情况。还可以添加 bins 来切割直方图。

In [81]:
sns.distplot(s1, bins=40, hist=True, kde=False, rug=True)
plt.show()

还可以填充密度图。

In [82]:
sns.kdeplot(s1, shade=True, color='r')
plt.show()

No.3 Seaborn 柱状图和热力图

首先使用 seaborn 的 load_dataset 方法来加载在线数据,这个如何实现可以去看 GitHub 的源码,源码里面提供了很多 csv 文件的数据集。

In [83]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from pandas import Series, DataFrame
In [84]:
df = sns.load_dataset('flights')
In [85]:
df.head()
Out[85]:
year month passengers
0 1949 January 112
1 1949 February 118
2 1949 March 132
3 1949 April 129
4 1949 May 121
In [86]:
df.shape
Out[86]:
(144, 3)

这是个飞行数据,下面做一个透视表出来。

In [87]:
df = df.pivot(index='month', columns='year', values='passengers')
In [88]:
df
Out[88]:
year 1949 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960
month
January 112 115 145 171 196 204 242 284 315 340 360 417
February 118 126 150 180 196 188 233 277 301 318 342 391
March 132 141 178 193 236 235 267 317 356 362 406 419
April 129 135 163 181 235 227 269 313 348 348 396 461
May 121 125 172 183 229 234 270 318 355 363 420 472
June 135 149 178 218 243 264 315 374 422 435 472 535
July 148 170 199 230 264 302 364 413 465 491 548 622
August 148 170 199 242 272 293 347 405 467 505 559 606
September 136 158 184 209 237 259 312 355 404 404 463 508
October 119 133 162 191 211 229 274 306 347 359 407 461
November 104 114 146 172 180 203 237 271 305 310 362 390
December 118 140 166 194 201 229 278 306 336 337 405 432

根据这个透视表做一个热力图,查看每年飞行次数。

In [89]:
sns.heatmap(df, annot=True, fmt='d')
plt.show()

这张热力图能看出来 49 年到 60 年飞行次数逐步增加,并且每年飞行次数多集中于中间月份,也就是 5 月到 9 月。

然后再画一个柱状图,柱状图就比较简单了。

In [90]:
sns.barplot(x=df.sum().index, y=df.sum().values)
plt.show()

这是每一年飞行次数的综合画的柱状图。

No.4 Seaborn 强大的调色功能

首先写一个固定的绘图函数。

In [91]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from pandas import Series, DataFrame
In [92]:
def sinplot():
    x = np.linspace(0, 14, 100)
    plt.figure(figsize=(8, 6))
    for i in range(4):
        plt.plot(x, np.sin(x+i)*(i+0.75), label='sin(x+%s)*(%s+0.75)' %(i,i))
    plt.legend()    
    plt.show()
In [93]:
sinplot()

seaborn 内置了一个调色盘,六个颜色,有不同主题。

In [94]:
sns.color_palette() # RGB
Out[94]:
[(0.85999999999999999, 0.37119999999999997, 0.33999999999999997),
 (0.85999999999999999, 0.68320000000000003, 0.33999999999999997),
 (0.72479999999999989, 0.85999999999999999, 0.33999999999999997),
 (0.41279999999999994, 0.85999999999999999, 0.33999999999999997),
 (0.33999999999999997, 0.85999999999999999, 0.57920000000000016),
 (0.33999999999999997, 0.82879999999999987, 0.85999999999999999),
 (0.33999999999999997, 0.51679999999999948, 0.85999999999999999),
 (0.47520000000000029, 0.33999999999999997, 0.85999999999999999),
 (0.7871999999999999, 0.33999999999999997, 0.85999999999999999),
 (0.85999999999999999, 0.33999999999999997, 0.62079999999999991)]
In [95]:
sns.palplot(sns.color_palette())
plt.show()
In [96]:
pal_style = ['deep', 'muted', 'pastel', 'bright', 'dark', 'colorblind']
In [97]:
sns.palplot(sns.color_palette('deep'))
plt.show()
In [98]:
sns.palplot(sns.color_palette('bright'))
plt.show()
In [99]:
sns.palplot(sns.color_palette('colorblind'))
plt.show()

更换默认主题。

In [100]:
sns.set_palette(sns.color_palette('colorblind'))
sinplot()

图中线的颜色变了。你也可以自己设置颜色。

In [101]:
pal_1 = sns.color_palette([(0.5, 0.1, 0.7),
                          (0.3, 0.1, 0.9),
                          (0.7, 0.4, 0.2)])
In [102]:
sns.palplot(pal_1)
plt.show()

但是这种方法太慢了,还要自己敲数字,seaborn 还有一个更便捷的方法。

In [103]:
pal_2 = sns.color_palette('hls', 10)
sns.palplot(pal_2)
plt.show()
In [104]:
sns.set_palette(pal_2)
sinplot()

一行代码就可以了。


结束。

使用 Latexmk 编译 tex 文件

尽管老早以前就听说过 Latexmk,但是一直没有用起来。昨天折腾的心思又蠢蠢欲动,于是翻阅了下 Latexmk 手册,最终将其配置为理想状态,于是便有了这篇分享文章。

如果你还不了解 Latexmk 是什么东东,这里简单的介绍一下:LaTeX 要生成最终的 PDF 文档,如果含有交叉引用、BibTeX、术语表等等,通常需要多次编译才行。而使用 Latexmk 则只需运行一次,它会自动帮你做好其它所有事情。通常情况下,你安装的 LaTeX 发行版已经包含了 Latexmk,我们并不需要手动安装它。[1]

因为之前对 Latexmk 有一定了解,翻阅手册前确定了基本的目标:

  1. Latexmk 有文件监测的机制。它应该可以做到只需运行一次,然后每次文件保存动作后,自动重新编译。
  2. 它应该最终生成 PDF 文件并预览。之前折腾 LaTeX 的过程中,我发现有时生成的是 xdv 文件。
  3. 最好能直接调用 xelatex 引擎。默认调用 pdflatex 太糟糕了,使用万国码是个很常见的需求。
  4. 修改 Vim 编辑器中的相应配置。个人使用的是 vimtex 插件,记得它是支持 Latexmk 的,但可能需要配置一下。

Read more…

Vim Cheat Sheet
/images/vim-cheat-sheet-full.thumbnail.png
Contents © 2018 ashfinal - Powered by Nikola