Category Archives: 科技

百万美元大奖:Netflix Prize!

  DVD在线租赁商 Netflix 于 2006 年 10 月 2 日发起一项竞赛:Netflix Prize,任何组织或个人只要能够提交比它现有电影推荐系统 Cinematch 效果好 10% 的新方法,就可以获得一百万美元的奖金。竞赛最多持续到 2011 年 10 月 2 日。同时,Netflix Prize 还提供每年五万美元的年度进步奖。2007 年年度进步奖由来自 AT&T 的 BellKor 小组夺得。

  竞赛提供四十八万多用户对一万七千多部电影的上亿条评分记录,要求参赛者根据这些信息推测另外近三百万条记录打了什么分数。Netflix 计算参赛者的推测与实际的打分结果的 RMSE(root mean square error),以此评定成绩。Cinematch 自己的 RMSE 是 0.9514。目前最好成绩是 0.8675,由”When Gravity and Dinosaurs Unite” 小组于 2008 年 3 月 1 日提交。BellKor 小组暂居第二,成绩是 0.8682(去年 BellKor 获奖的成绩是 0.8712)。

  截止到 2008 年 3 月 7 日 20:55:57,竞赛已经吸引了来自 168 个国家的 27600 多支队伍参加,收到 23170 份有效的提交结果。成绩最好的 40 份结果进入排行榜

  Netflix Prize 竞赛应该说是双赢的活动。一方面,Netflix 以相对较少的成本,吸引了全球的研究者为其开发电影推荐算法,并获得了良好的宣传效应。另一方面,竞赛所提供的海量真实数据对于数据挖掘,知识发现,机器学习等方向的研究来说,是不可多得的珍贵数据。

PS:关于竞赛更多的信息,请自行在网上查找

三门问题

  这个著名的问题是这样的:(引自中文wiki: http://www.mirrorin.com/wiki/emgud2lr/aXBlZGlh/Lm9yZy93/aWtpLyVF/NCVCOCU4/OSVFOSU5/NyVBOCVF/OSU5NyVB/RSVFOSVB/MiU_3D/98

这个游戏的玩法是:参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门就可以赢得该汽车,而另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,节目主持人会开启剩下两扇门的其中一扇,露出其中一只山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。问题是:换另一扇门会否增加参赛者赢得汽车的机会率?

  很多人(包括我自己)第一次看到这个题目的时候直观的感觉剩下的两扇门后面要么是羊要么是汽车,换不换门选中汽车的概率都是1/2,换门并不能提高选中汽车的可能性,那还是坚持最初的选择好了。而事实并不是这样。问题的答案是:如果不换,那么选中汽车的概率是1/3,如果换,选中汽车的概率是2/3。

  网上已经有很多关于求解过程的讨论,这里我只讲我的理解。首先明确一点,主持人知道汽车在哪扇门后面并且他肯定会打开一扇有羊的门。否则如果主持人打开的是一扇有汽车的门,游戏就玩不下去了。既然主持人肯定会打开有羊的门,那么是否选择换另外一扇门就可以在整个游戏之前确定,也就是说,参赛者有两种策略,一种是随便选择一扇门并且不换门,另一种是随便选择一扇门并且在主持人打开有羊的门之后换选另外一扇门。下面只要分别计算这两种策略选中汽车的概率就可以了。

  显然第一种策略选中汽车的概率是1/3,选中羊的概率是2/3。

  第二种策略下可以根据第一次的选择分为两种互斥的情况,根据加法原理将两种情况下选中汽车的概率相加,就是第二种策略选中汽车的概率。

  1. 第一次选择的门后面是汽车,这个事件的概率为1/3。因为剩下的另外一扇门后面肯定是羊,即,是汽车的概率为0,因此这种情况下,最终选中汽车的概率为1/3*0=0。
  2. 第一次选择的门后面是羊,这个事件的概率为2/3。因为剩下的另外一扇门后面肯定是汽车,即,是汽车的概率为1,因此这种情况下,最终选中汽车的概率为2/3*1=2/3。

所以第二种策略选中汽车的概率为0+2/3=2/3。简单的讲,当参赛者以2/3的概率选中一扇有羊的门之后,主持只能将有汽车的门留给参赛者,如果换门,就可以选中汽车。

  为什么我们会有最初的1/2困惑,并且相当一部分人看了”正确”的解答仍然坚持这样认为?我想了差不多一整天,我觉得关键是主持人打开的那扇门。因为主持人知道汽车在哪里,所以当他打开一扇有羊的门之后,剩下两扇门就不再是均匀分布了。

  Wiki上关于这个问题的解答如下:

有三种可能的情况,全部都有相等的可能性(1/3):

  1. 参赛者挑山羊一号,主持人挑山羊二号。转换将赢得汽车。
  2. 参赛者挑山羊二号,主持人挑山羊一号。转换将赢得汽车。
  3. 参赛者挑汽车,主持人挑两头山羊的任何一头。转换将失败。

在头两种情况,参赛者可以透过转换选择而赢得汽车。第三种情况是唯一一种参赛者透过保持原来选择而赢的情况。因为三种情况中有两种是透过转换选择而赢的,所以透过转换选择而赢的概率是2/3。

这个解答在我看来是相当的简洁明了,比我上面讲的更直接。之所以没有在开始引用这个解答,是因为有人有这样的疑问:

参赛者挑的时候,把山羊分为一号、二号,主持人挑的时候怎么不分一号、二号?肯定有问题嘛!

这是表达上的小问题导致的误解,主要是句号的位置不正确。调整成下面这个样子估计会好些:

  1. 参赛者挑山羊一号。主持人挑山羊二号,转换将赢得汽车。
  2. 参赛者挑山羊二号。主持人挑山羊一号,转换将赢得汽车。
  3. 参赛者挑汽车。主持人挑两头山羊的任何一头,转换将失败。

  昨天晚上看《数字追凶》(Numb3rs),查理教授在课上讲了这个游戏。视频在这里:http://6.cn/watch/57604.html

10分钟邮箱——学会保护自己

  十分钟邮箱是一个提供免费邮箱的网站,特别之处在于,它提供的邮箱只有十分钟,没错,就象它的名字一样,只有十分钟。不需要填写麻烦的表格,不需要提供任何个人信息,甚至不需要费脑筋想用户名,只需要点击申请邮箱的链接,马上就会得到一个邮箱地址。在接下来的十分钟里,所有发往这个邮箱的邮件,都自动会显示在屏幕上。如果十分钟不够用,还希望继续使用,那就点”再给我10分钟!”。

  只有十分钟的邮箱,又不是我喜欢的用户名,有什么用呢?

  现在很多网站都要求用户注册后,才能使用相关的服务,比如论坛。注册的时候又要提交各种各样的个人信息,通常会要求用户提供至少一个电子邮箱地址。而且很多网站为了防止机器人注册,防止用户随便填一个地址,还使用了Email验证机制,发一个什么验证码,什么验证地址到用户提供的邮箱,要再点一下才行,等等。总之,一定要用户提供有效的个人信息才行。而一旦你提供了真实的邮箱地址,邮箱里的垃圾邮件就很有可能增加。虽然不是所有的网站都会出卖用户的个人资料,但古话说的好”防人之心不可无”。有了十分钟邮箱,你就可以方便的试用各个网站的服务,满意了,信得过,值得注册,那就再换成正式的邮箱好了。

  提醒:对于相对重要的网络服务,建议不要使用这项服务,以免收不到重要邮件。

http://www.feedsky.com/challenge/art/140687/feedsky/618618/~/gtsp/zt1/06562/lnk.html

Dict.cn 海词

  海词dict.cn)是一个免费英汉、汉英在线词典。对于词典,有两点是比较关键的,一是词库大小,二是查询是否方便。词库方面,网站自己讲:

  • Dict.CN汉英词典:331万不重复词条,配以简明解释和相关词条,动态更新。
  • Dict.CN英汉词典:169万不重复词条,配以简明解释和相关词条,动态更新。

对于一般的应用,基本上够用了。词条解释稍嫌简单,但我比较喜欢其中的例句与用法,特别是汉译英的时候,某个词的用法拿不准,查查例句有没有类似的,挺管用的。

  查询方面,除了访问网站直接查询的方法之外,还可以通过MSN机器人,QQ迷你门户,浏览器插件、系统右键等方式查询单词。甚至可以使用手机访问wap.dict.cn来查单词。海词公布了API接口,任何有兴趣的网友,都可以开发自己的第三方应用。

  通过插入海词提供的HTML代码,可以在自己的网页上提供单词查询服务,比如像这样:

在线词典

  海词提供的在线拼音输入法也很有意思,但是似乎最多只能输入二字词。不过在线输入法这种东东也只是应一下急,应该不会有人当做常用输入法吧。

http://www.feedsky.com/challenge/art/140687/feedsky/618618/~/gtsp/zt1/7d047/lnk.html

Google Image Labeler

  Google Image LabelerGoogle公司提供的一款在线游戏。没搞错吧,Google也开始做网游了?没搞错,确实是游戏,确实是Google提供的游戏。既然是游戏,我们还是先看一下玩法,再谈其他。

  规则很简单,玩家甲到http://images.google.com/imagelabeler/登陆后,系统会随机指定另外一个在线玩家乙作为甲的搭档。然后在2分钟内,系统随机选取一张图片显示给两人,由甲、乙分别给这张图片打标签,可以打多个标签,但是不能使用系统禁用的标签(off-limits)。一旦两人所打的标签中出现一致的,系统会根据标签的”具体程度”给两人加上不同的分数,并显示下一张图片,继续打标签,直到2分钟结束。游戏结束后,会显示在这次游戏中所用到的所有图片,以及搭档给出的标签。标签越具体得分越高,比如下面这张图,如果两个人给出的标签是”sky”,那么可以得50分,”bird”可以得60分,”soaring”得120分,而”frigate bird”可以得150分。看上去有点麻烦,去http://images.google.com/imagelabeler/玩一下就很清楚了。

example.jpg

  因为目前只有英文版,不但界面是英文的,打标签也只能用英文,对英文的要求还是比较高的。

  Google搞这个游戏,其实是为了改进图片搜索的质量。目前图片的搜索或者说检索,仍然是一个世界级的难题。没有特别有效的方法,基本上还停留在根据颜色、纹理进行分类的阶段。Google通过这样一个游戏,可以集聚广大网友的力量,通过标签挖掘图片的真实信息,也就是常说的”人肉搜索”。如果还希望了解更详细的信息,请访问http://my.donews.com/jackiege/2006/09/10/bfabvbfwqfdovpayhpufsfhqvxoucfrqatdb/

  有时间就试一下吧。

http://www.feedsky.com/challenge/art/140687/feedsky/618618/~/gtsp/zt1/7d856/lnk.html

Bit.Fall,比特瀑布

Sent to you by Mao Ziyang via Google Reader:

Bit.Fall,比特瀑布

via [ i D | 公 社 ] by Hi-iD on 11/1/07


bit.fall by Julius Popp
上图你看到的并不是一幅巨型点阵艺术图,而是一道水帘,而水帘上能显示出图形,这个Bit.Fall(比特瀑布)来自于 Spherical Robots 的 Julius Popp(上图为模拟图,下面有视频)。这个水雕塑使用了128个同步电磁阀门(synchronized magnetic valves),将水流可以变成点阵图显示矩阵,一个计算机程序可以从新闻网站选择热门的关键词,将它们显示在这个透明的“信息窗帘”上,这个“信息流”寓意着信息的动态性和常变性。
bit.fall by Julius Popp
Bit.Fall 的视频:

(via:dezeen
另外一个作品Jeep Waterfall,来自Stephen Pevnick


相关文章:

    暂时没有相关文章

Things you can do from here:

人类起源

相关链接:Solidot | 新研究再次证实人类非洲单一起源说

  虽然白人、黄种人、黑人之间的差别十分明显,但是相比于人和狗,人和猩猩之间的差别,这又能算得了什么呢?我相信世界上的人只有一个共同的祖先,但是不是一定起源于非洲,那还是要听科学家们怎么说。不但人类是单一起源,相信其他的物种也是单一起源。老虎,老鼠,老鹰……无一例外。

关于克隆

  今天看到一篇谈论克隆技术的文章,主要是讲不同的人对于克隆技术能否应用到人身上(也就是克隆人)的不同观点。我是不赞成克隆人的。
  起初,我并没有太明显的倾向性,不确定是否应该克隆人,有利有弊吧。后来,偶然间看了CCTV一档节目中的一个片段,那是董浩主持的一档儿童节目,节目中请一个小朋友展示自己的画。小男孩画了两个小朋友,一个在户外踢球,一个在屋里写作业。他解释说,外面那个是他自己,屋里那个是他的克隆人。他的画,他的解释,得到了在场所有人的赞赏(不知道有没有朋友可以找到这一段视频)。这叫什么?这叫克隆歧视,这叫基于克隆的不平等。一瞬间,关于克隆人,我有了明确的立场。
  一个小男孩,很自然的将克隆人当成了自己的附属品,并且得到了相当多的人的赞同。由此可见,基于克隆的不平等已经深入人心。克隆歧视将会是比种族歧视更严重的歧视。克隆人能否得到一个人所应得到的所有尊重和地位,能否被无差别的视为一个人,他还是一个人吗?或者,如果我是克隆人,我又会如何看这个世界,看我自己?
  人的观念是在变化的,道德也在变化。或许以后我会改变我的观点,但至少目前还没有。

方正静蕾简体

  相关链接:徐静蕾发布个人字体 售价10元命名方正静蕾简体
  我感兴趣的是,这个字库是GB的,还是GBK的?是老徐一个一个写出来的吗?要知道,就算是GB的,也有6千多个字(其实,6千多也不算多)。如果不是一个一个写出来的,我对生成其他汉字的算法更感兴趣。

4月30日:今天看到老徐自己说,“写了6700多个字,历时2个多月……”。那基本可以肯定,是GB字库,并且是逐个制作的。当然了,前提是老徐讲的是真的。

邮件提醒工具

  刚刚看到这个新闻:Wangtam: forLater: 简易邮件提醒工具,和我一直想要的功能很接近。
由于工作的需要,每天都会发不少邮件,这些邮件中有相当一部分并不是发了就完事了,而是需要日后跟进的。所以,我希望在我发出邮件的同时,可以设置一个时间,比如一周后,或者一月后,或者三月后,以一种什么方式提醒我去检查那封邮件的处理状态。邮件的客户端我用的是DreamMail,很不错的软件,但是作者说这样的功能很不好实现,近期不会考虑。于是我就只能等待支持插件功能的DM 5.0,看看有无可能写一个这样的插件,将forLater整合到DM中去。

无觅相关文章插件,快速提升流量