Category Archives: 科技

科技

基于Twitter的问答系统

假设系统id是@tuibaike
对于普通用户,最简单的用法是只要将问题@给tuibaike,系统将问题rt给其他用户,并将答案返回提问人,就像现在很多人遇到问题就问@xiaolai一样。而实际上,系统先将问题rt给人肉分类员,由分类员对问题进行分类,打上标签后,再投递给相关“专家”(只是为了表述的方便,用“专家”来指代所有有可能提供答案的人)。
人肉分类员,就是fo了tuibaike的人。其首要任务是判断问题的类型,并打上相应标签。次要任务是,如果知道该问题可能由哪些专家回答,则rt给这些专家。最后,如果能够直接回答,直接给出答案。
系统还需要掌握一个“专家库”。专家库与问题分类的对应信息可由三个渠道获得。1、自动分析历史推,2、网友推荐,3、本人自荐。

希望这个系统能够解决“有选择的自动投递给相关领域专家”的目的。比如,英语学习问题问@xiaolai,经济学问题问@guodaxia,眼科问题问@goldgrape等。这样一方面问题可能更快得到解答,另一方面每个专家的TL不至于爆炸。

不确定的因素,有多少人愿意当人肉分类员,有多少专家愿意回答问题。

另外:有没有哪位朋友愿意实现这样的系统?

科技

ESI简介及其收录的数学类期刊

ESI(Essential Science Indicators)根据SCIE( Science Citation Index Expanded)、SSCI(Social Sciences Citation Index) 所收录的全球11000多种学术期刊文献纪录而建立的计量分析数据库系统。ESI为科研工作者提供了一种动态的、综合的、通过网络的研究分析环境。ESI从引文分析的角度,针对22个专业领域,分别对国家、研究机构、期刊、论文以及科学家进行统计分析和排序,主要指标包括:论文数、引文数、篇均被引频次等。可以从中了解在一定排名范围内的科学家、研究机构(大学)、国家和学术期刊在某一学科领域的发展和影响力,确定关键的科学发现,评估研究绩效,掌握科学发展的趋势和动向。

ESI收录的指标标准:

1. Highly Cited Paper:发表于十年内各领域中被引用次数Top 1%的文章

2. 国家排名:150个国家发表于十年内文章被引用次数Top 50%

3. 期刊排名:取4500种期刊近十年内文章被引用次数Top 50%

4. 科学家排名:发表于十年内文章被引用次数Top 1%的科学家

5. 研究机构排名:发表于十年内文章被引用次数Top 1%的研究机构

6. Hot Papers:发表于两年内被引用次数为各领域Top 0.1%的文章

7. Core Paper:在Research Front中跟某个Front所有相关的Highly Cited Paper的集合

8. Top Papers:在国家/机构/研究员/期刊分类下看到的Top Papers,是这些分类下近十年被引用最多前1%的文章。(Top Papers = Highly Cited Papers + Hot Papers,是去掉重复后的总合)

9. 研究前线 (Research Front):ESI 将国际过去五年中各个领域的论文,从其参考文献(references)及批注(footnotes)达到高引用门坎值的共同被引文献出发,通过群聚分析(Cluster Analysis),产生聚类集合。有助于获知目前哪些领域的研究成果有重要发现,以及反映出当前科学家重点关注的方向。

ESI数据每两个月更新一次,每年6期。每年中间的更新,都包括前10年以及最近几个月的数据,而每年最后一期,只包括10年的数据(简单讲,年底那期是整10年没有零头的数据,其他期有零头)。每期可能调整部分期刊所属的领域。

ESI将期刊分为22个领域(Field),每本期刊只归于其中一个领域,而Multidisciplinary这个领域则包含诸如Science、Nature、PNAS及其他跨领域的约50种综合期刊。ESI会根据引用期刊来源而将这50多种综合期刊的单篇文章自动重新归类,每种期刊文章被重新归类的文章比例很不相同,平均约有一半文章被重新归类,而其中Science、Nature、PNAS等期刊有高达95%的文章被重新归类。 22个领域的定义见附录1。Mathematics的定义如下:

MATHEMATICS

The MATHEMATICS category is comprises journals dealing with:

* pure mathematics
* applied mathematics
* statistics and probability

而其他与数学相关的杂志被归于相应的领域,如Engineering中包括

* engineering mathematics
o mathematical modeling
o optimization techniques
o statistical methods in engineering systems

Physics中包括mathematical physics。

根据2010年12月公布的2010年第四期ESI,也即截止至2010年8月31日的数据,共收录11526种期刊。其中属于Mathematics的期刊有458种,完整列表见附录2。其中影响因子(IF)和5年影响因子(5-year IF)数据取自JCR 2010(Journal Citation Reports 2010),-1表示该期刊未被JCR 2010收录。另外,JCR 2010共收录7346种期刊,其中未被ESI 2010第四期收录的期刊有138种。

另外,考虑到部分数学相关期刊被ESI归为其他领域,因此,参考SCI分类方法,将Computational Biology,Interdisciplinary Applications,Mathematics,Applied Mathematics,Mathematical Physics,Statistics & Probability等六类共241本期刊的ESI收录情况列出,见附录3。

SCI学科分类表见附录4,ESI所有期刊及分类见附录5(2010年12月数据)。

下载:ESI

科技

辛普森悖论Simpson’s paradox

相关文章:
http://plus.maths.org/content/maths-minute-simpsons-paradox
http://tw.myblog.yahoo.com/mathkid1016/article?mid=36&next=15&l=f&fid=10

Simpson’s paradox是讲在分组比较中都占优的一方,在总评中反而不占优。

假设某高校只有两个系,英语系和数学系。英语系,男生的录取比例为40%,女生的录取比例为42%,而数学系男、女生的录取比例分别为10%和11%。从这两组数据看来,女生的录取比例似乎略大于男生的录取比例。那么整体的整体录取比例又如何呢?为了计算整体的录取比例,我们还需要知道具体的报考人数。在这个例子中,假设有100名男生和50名女生报考英语系,有50名男生和100名女生报考数学系,这样,男生总共有45人被录取,录取率为30%,女生总共有32人被录取,录取率为21.3%。

虽然每个系对于女生的录取率都略大于男生,但是女生总的录取率明显低于男生。可以这样解释这个现象。无论男生还是女生,数学系都比英语系更难考,而多数男生报考的是容易考的英语系,多数女生报考了数学系,导致女生被录取的人数少于男生。

百分比是靠不住的,还要知道总数。

科技 网站推荐

PhET: Interactive Simulations

推荐一个在线物理、化学现象交互演示的网站PhET: http://phet.colorado.edu/ ,也可能我火星了。


其他 科技

淘宝修改了排序算法

原来如果对搜索出来商品按价格从低到高排序的话,系统就是按价格从低到高排序。现在系统将正品与配件分开按价格高低排序,并把正品放在前面。比如搜索nokia n810,搜索结果中有机子本身,也有电池、膜等等这些配件。如果选择按价格从低到高排序的话,就会先显示机子从低到高的结果,再显示配件从低到高的结果。

不清楚算法的细节,不知道有没有误判。如果考虑了品名,误判会少些,如果只是按价格的跳跃进行判断,误判会多些,特别是新机与二手机同时存在的时候。

另外,搜索算法好象有点问题。按道理讲,“nokia n810”的所有搜索结果,应该都包括在“n810”的搜索结果中,但事实上不是这样。搜索“n810”出来的结果主要是夏新的手机,不包括很多“nokia n810”搜出来的商品。有点奇怪。

==================================

7月17日:排序结果有点乱,莫名其妙。

科技 软件

Google Chrome OS

无风不起浪,传说原来都是真的。

科技

SCI收录数学类期刊2007年影响因子(Excel版)

有领导要这个,就整理了一下,有需要的请自行下载,下载完了吼一声。

下载:SCI收录数学类期刊2007年影响因子(Excel)

影响因子数据来源:http://admin-apps.isiknowledge.com/JCR/JCR
期刊分类依据:http://www.isinet.com/cgi-bin/jrnlst/jlsubcatg.cgi?PC=K
附全部期刊的影响因子:JCR 2007

其他 科技

论高等教育——2008年6月2日丘成桐于北京

Read this document on Scribd: Beijing080602(丘成桐)
科技

现在的Page Rank是否已经考虑RSS订阅的权重

  Google Reader的用户已经足够多,不太清楚现在的Page Rank算法是否已经考虑了RSS订阅的权重。订阅一个网站显然是对该网站已有内容的一种肯定,对未来将要出现的内容的一种期待,应该比友情链接更为重要。同样的,Google Bookmarks,Notebook里面的内容,也是相对比较重要的内容。还有就是,Reader里的,Bookmarks里的,Notebook里的都是经过人工筛选的内容,并且进行了手工聚类。我现在有点明白Google为什么提供这些产品了。

科技 转载

转载:英特尔伯克莱研究所展示使用手机构筑的传感器网络

原文在:http://hi.baidu.com/vvfang/blog/item/af89ef1f73ecab67f724e4de.html

注:这个想法不错。能不能利用每个人正在使用的手机构建这样的网络?这样的好处是密集、实时。但是有可能引发隐私方面的争议。或者可以在销售的时候,说明有这样的功能,让消费者自己选择。

英特尔伯克莱研究所展示使用手机构筑的传感器网络

http://china.nikkeibp.co.jp/china/news/mobi/mobi200803120119.html

【日经BP社报道】
美国英特尔的伯克莱研究所(Intel Reseach Berkeley)2008年3月6日举行了名为“2008 Open House at
the Intel Research
Berkeley”的研究成果展示会。公布了与美国加州大学伯克莱分校合作研究的内容,展示了Web网站搜索功能、编程语言、网络、网络安全、传感器网络
的相关研究成果。

其中,最让人感兴趣的是使用淘汰手机构筑的传感器网络。该研究所表示,除了将淘汰手机作为通信基础设施用于传输传感器测量的数据之外,通过有效使用相机手机来发送现场图像和影像。

据称美国每年有1亿5000万部手机被淘汰,其中仅有不到1%被回收。使用淘汰手机,不仅可以低成本构筑传感器网络,还可以提高手机的循环利
用率,达到环保目的。该研究所表示,此次展示的目的并不是为了追求技术水平,而是为了提出一个方案,就是形成一个便于了解周边事物的交流社区(图1)。

另外,该研究所还展示了传感器网络的应用实例,就是使用传感器网络对大气中汽车尾气浓度的分布进行实时检测。传感器网络以检测PM(粒子状物质)的MEMS传感器为主,包括一氧化碳传感器、温度传感器以及手机(图2)。MEMS传感器由美国加州大学伯克莱分校开发。

传感器的数据通过蓝牙无线通信装置发送给手机,再由手机发送给信息处理中心。由于无需使用专用数据传输装置,与原来的系统相比,数据收集的成本更低。(记者:狩集 浩志)

无觅相关文章插件,快速提升流量