基于Python的针对科学家和工程师的软件工程
Software Engineering with Python for Scientist and Engineers是PSF2005年资助的一项计划,项目主页在Software Carpentry,作者是Greg Wilson。该项目由一系列的讲座组成,帮助科技工作者使用Python快捷的任务。目前作者正在完善第4版。更详细的信息查阅项目主页和作者的Blog。
Lectures
- Introduction
- Python Basics
- Python Strings, Lists, and Files
- Python Functions and Modules
- Debugging
- Version Control
- Python Sets and Dictionaries
- Image Processing
- Basic Unix Shell
- More Unix Shell
- Automated Builds
- Computational Complexity
- Python Basic Object-Oriented Programming
- Python Advanced Object-Oriented Programming
- Quality Assurance
- Unit Testing
- Databases
- Regular Expressions
- Binary Data
- XML
- GUI Programming
- Web Client Programming
- How Web Servers Work
- Web Application Programming
- Empirical Software Engineering
- Software Development Lifecycles
- Summary
- License
- Glossary
- Acknowledgments
- Bibliography

Android on Nokia N800
根据 http://talk.maemo.org/showthread.php?t=25736 这篇文章,将Android刷到N800上。需要注意两点:
1、作者用的是2G的SD卡,我自己用的是1G的SD卡,所以
sudo sfdisk -uM /dev/sdc ,1024,C ,1,L ,, ,, 这一步需要改一下参数。 2、刷Flash这步,我这里出错:Error claiming USB interface: Device or resource busy 需要参考http://forums.internettablettalk.com/showthread.php?t=33543&page=2这篇文章解决。
搜索进程——新的搜索方式
在使用搜索引擎查找资料时,很难一下子找到想要的东西,通常会尝试不同的关键词及其组合。
比如,查“关键词1”,得到若干页的结果,翻看了前5页,有一些有用的资料,打开另外的页面查看,多数是没有用的。输入“关键词2”继续搜索,又得到若干页的结果,但是某些内容已经在刚才搜索关键词1时得到的前5页结果中出现过,而这些内容我都已经浏览过了,确定有或者没有我要的资料。搜索引擎为什么不把这些资料隐藏掉?
我希望Google能够提供一个我暂时称为“搜索进程”的功能。在同一个搜索进程中,无论搜索哪个关键词,都不显示之前用户之前已经查看过的条目。如果同一用户的两次搜索的间隔小于某个事先设定的值(如1小时),则认为是同一个搜索进程。用户也可以手工开启一个新的搜索进程。如果搜索引擎更聪明一点,能够根据两个关键词间的相关度,提醒用户是否开启新的进程的话,那就更好了。
KDD Cup2010:教育方面的数据挖掘竞赛
KDD Cup由SIGKDD(ACM Special Interest Group on Knowledge Discovery and Data Mining)组织。每年一次的KDD Cup,和SIGKDD国际会议同期举行。同时面向学术界和产业界。
今年KDD Cup的主要内容是通过智能辅导教学系统和学生交互的日志预测学生数学题的成绩。这次的任务是一次有趣的科技挑战,兼具实践重要性和科学趣味性。
任务描述:
竞赛开始时,将提供5个数据集:3个开发数据集和2个挑战数据集。每个数据集都被分为训练部分和测试部分。在挑战数据集的测试部分中学生成绩分类将被隐藏起来,但在开发数据集中学生成绩分类都是可见的。竞赛任务要求开发出一种基于挑战/开发数据集的学习模型,使用这种算法通过学习挑战数据集训练部分的数据,可以准确预测学生在测试部分的成绩。竞赛最终的优胜者取决于他们的模型在挑战数据集中一个不可见部分的表现。最终成绩以各队挑战数据集的最后一次提交为准。
时间安排:
3月15日 召集参与者
4月1日 比赛开始
6月1日 比赛结束
记录几个跟“国学”有关的站点
- 汉典 zdic.net:汉字、词语、成语大全。
- 诗词总汇 www.sczh.com:免费诗词检索系统,近27万首诗词。古诗、唐诗、宋词、鉴赏。
- 拓本文字データベース:这是日本人办的一个碑贴网站。比如http://coe21.zinbun.kyoto-u.ac.jp/djvuchar?query=%E6%BC%A2,展示“漢”字的一千多个碑贴图片,包括出处。
MySql数据库导出时指定编码
导出低版本MySql数据库时,通常会遇到乱码的问题。应在导出时加上指定编码的参数,比如:
mysqldump –default-character-set=latin1 -u 用户名 -p 数据库名 > old.sql
再用iconv等转码工具转换编码类型。
Google发布可视化的公开数据分析工具
Google和世界银行及其它统计资料公司合作,在Google Labs中提供可视化的数据分析工具。Google Public Data Explorer于周一正式上线。网站使用关于学校、人口、犯罪率甚至名字的公开资料来建构图表和图片,用于描述趋势。 Google也发布了一份热门搜索词列表,学校比较和失业人口是最常被搜索的问题,接下来则是人口、购物税和薪资。除了和世界银行、美国劳工统计局、美国人口局合作之外,Google的资料提供者还包括联合国经济合作与开发组织、加州教育局、欧盟统计局、美国中央疾病管制中心和美国经济分析局等单位。
rename-批量重命名命令
原来还很麻烦的用for循环(Ubuntu下批量重命名),其实只用rename就够了。比如,要把所有的文件名改为小写:
rename ‘tr/A-Z/a-z/’ *
把所有文件的后缀由rm改为rmvb
rename ’s/.rm$/.rmvb/’ *
替换时,只匹配第一次找到的子串,如果要替换所有匹配到的子串,需要添加g,比如有以下文件:
1.txt,11.txt,111.txt
命令
rename ’s/1/a/’ *.txt
得到的结果是
a.txt, a1.txt, a11.txt
而,命令
rename ’s/1/a/g’ *.txt
得到的结果是
a.txt, aa.txt, aaa.txt
终于在ubuntu 9.10装上了nvidia显卡驱动
Sony VAIO VGN-Z系列的笔记本都是双显卡,需要使用软件切换。之前在我的Z25上多次尝试安装NV显卡驱动,论坛上能看到的方法都用过了,均没有成功。无论是源中的驱动还是官方的驱动,都不行,重起后黑屏。
今天用了 http://global-social.net/VGN-Z 这里的一个脚本,问题基本解决。
只是我在用那个脚本时,下载了官方驱动后,又进行了一个什么检测,需要从网上下载包,但是不知道什么原因没有成功,脚本退出。再次运行脚本,在测试过OS版本后,没有反应,只能中止。手工安装了官方驱动,设置了LCD亮度与Fn键的关联。
排序学习(LTR)竞赛–Yahoo
Yahoo发起了一项学习排序竞赛(Learning to Rank Challenge)作为ICML 2010大会的一部分,任何人可以以个人名义或组队(最多10人)参赛。竞赛3月1日开始,至5月31日结束,6月份公布获奖名单。
竞赛将公布两个之前从未发布的真实数据形成的数据集。第一个数据集包括29921个请求,744692个URL地址,519个特征。第二个数据集包括6330个请求,172870个URL地址,596个特征。竞赛的任务是根据训练集中的数据构造一个排序函数,对验证集和测试集中URL地址进行排序。
第1至4名优胜者将分别获得8000,4000,2000,1000美元,并将被邀请参加ICML 2010大会。
更多详细信息参见:Learning to Rank Challenge