linux python 软件

Fcitx 4.0 郑码码表

下载:Fcitx 4.0 郑码码表

官方网站上那个zm.mb中,词序比较乱,很多词的编码是错的,比如“浏览”的编码应该是vskm,而不是vskd,组词规则也是错的。

我修改这个是以winzm为基础,并添加了fcitx 4.0中自带的wbx中的词组。

btw: 2005年前后,用pascal写过一个win码表转到scim码表的mb2scim,花了不少时间,这次用的是python,轻松+愉快。上次差不多400多行代码,这次不到60行,当然完成的功能略有不同。
另外,如果3.6用着没啥毛病的朋友,就不要折腾了,4.0似乎还不是特别稳定。

软件

pdftk抽取PDF页面

pdftk input.pdf cat 15-28 output outfile.pdf

软件

使用pdftk修改PDF文件的文档信息

在Acrobat Reader中使用Ctrl+D,在Evince中使用Alt+Enter,都可以查看PDF文件的文档信息,包括作者,关键词,创建PDF所用的软件等信息。要删除或修改这一信息,可以使用pdftk的如下命令:

pdftk in.pdf update_info in.info output out.pdf

其中in.info文件包含了你想要的文档信息,这个文件有特殊的语法规则,与下面命令输出的report.txt的语法规则是相同的。

pdftk in.pdf dump_data output report.txt

实际使用时,可以先用第二个命令把in.pdf文件中的文档信息提取到report.txt文件中。再把report.txt中对应的键值修改成你所需要的内容,然后使用第一个命令修改回去。

注意,dump_data出来的信息中汉字会变成unicode编码形式,但是导入时,信息文件in.info中可以使用汉字。

科技

辛普森悖论Simpson’s paradox

相关文章:
http://plus.maths.org/content/maths-minute-simpsons-paradox
http://tw.myblog.yahoo.com/mathkid1016/article?mid=36&next=15&l=f&fid=10

Simpson’s paradox是讲在分组比较中都占优的一方,在总评中反而不占优。

假设某高校只有两个系,英语系和数学系。英语系,男生的录取比例为40%,女生的录取比例为42%,而数学系男、女生的录取比例分别为10%和11%。从这两组数据看来,女生的录取比例似乎略大于男生的录取比例。那么整体的整体录取比例又如何呢?为了计算整体的录取比例,我们还需要知道具体的报考人数。在这个例子中,假设有100名男生和50名女生报考英语系,有50名男生和100名女生报考数学系,这样,男生总共有45人被录取,录取率为30%,女生总共有32人被录取,录取率为21.3%。

虽然每个系对于女生的录取率都略大于男生,但是女生总的录取率明显低于男生。可以这样解释这个现象。无论男生还是女生,数学系都比英语系更难考,而多数男生报考的是容易考的英语系,多数女生报考了数学系,导致女生被录取的人数少于男生。

百分比是靠不住的,还要知道总数。

python

SciPy的图像处理模块ndimage

之前用python处理图像主要是调用PIL库,PIL库不够用了,再转成numpy对象自己处理。刚才发现SciPy中有一个ndimage模块,包括了常用的图像处理函数。具体的内容可以参考:http://docs.scipy.org/doc/scipy/reference/ndimage.html

这个模块的前身应该是numpy的numarray.nd_image模块。

linux 软件

一句话实现PDF文件减肥

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/default -dNOPAUSE -dQUIET -dBATCH -sOutputFile=”outfile.pdf” “infile.pdf”

其中infile.pdf和outfile.pdf分别是输入、输出文件名。

还可以将其写成一个脚本,比如叫compresspdf
gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/default -dNOPAUSE -dQUIET -dBATCH -sOutputFile=”$2″ “$1″
添加可执行权限,放入执行文件目录
compress infile.pdf outfile.pdf

注:参考了nautilus的PDF压缩脚本,参见http://www.ubuntuhome.com/compress-pdf.html

其他

关于FY2D_IJToLatLon.NOM文件的补充说明

FY2D_IJToLatLon.NOM来自http://fy3.satellite.cma.gov.cn/PortalSite/StaticContent/DocumentDownload.aspx,被称为“风云二号标称格式文件(NOM)经纬度对照表”,用于查找全圆盘标称图像文件上每一点的经纬度。
关于该文件的原说明文件如下:

FY-2D全圆盘标称图经纬度查照表

文件名:FY2D_IJToLatLon.NOM

文件格式说明

行数:2288
列数:2288
说明:该文件数据采用二进制4字节浮点型方式存储,按照全部点经度,全部点纬度的方式排列。
星下点经度为:86.5E

需要补充一点,就是文件存放浮点数据的方式是低字节存放数据的高字节。

python 软件

调用u.nu的api缩短网址

#!/usr/bin/python
#coding: utf-8

import sys
import urllib2

api_address = 'http://u.nu/unu-api-simple?url='

for org_url in sys.argv[1:]:
    request = urllib2.urlopen(api_address + urllib2.quote(org_url))
    short_url = request.read()
    if short_url.startswith('http'):
        print org_url, '–> ', short_url
    else:
        print 'Error'

LaTeX相关

Beamer中使用verbatim环境

\begin{frame}[fragile]

python 软件

使用lxml解析html文件

之前一直搞错了,实际上只需要使用lxml.html模块,读入html文件后,直接调用xpath定位所需要的内容就行了,不再需要etree什么的了。具体看下面的例子:

01 #coding: utf-8
02
03 from lxml import *
04 import lxml.html as H
05 import urllib2
06
07 def getart(url):
08     f = urllib2.urlopen(url)
09     content = f.read()
10    
11     art = []
12     doc = H.document_fromstring(content)
13     p = doc.xpath(‘/html/body/div[2]/div[2]/div/div/ul/li/div[2]/p’)
14     for i in p:
15         tmp = i.text_content()
16         tmp = tmp.encode(‘utf-8′)
17         tmp = tmp.replace(\r, \n)
18         art.append(tmp)
19     return art
20
21 if __name__ == ‘__main__’:
22     urls = ['http://www.douban.com/group/topic/12018319/',
23             'http://www.douban.com/group/topic/12018319/?start=100']
24     outfile = open(‘zheda.txt’, ‘w’)
25     for url in urls:
26         art = getart(url)
27         for item in art:
28             outfile.write(item+\n)
29     outfile.close()

附:浙大夜惊魂6月26日更新至101章
hotfile: http://hotfile.com/dl/50704792/39ca85e/626101.txt.html
xun6: http://is.gd/d4Ym0

无觅相关文章插件,快速提升流量