Yandex的Spectrum如何工作?
How does Yandex’s Spectrum work?techcrunch 2010.12.15号的文章Ilya Segalovich, yandex首席技术官,联合创始人Yandex分析海量的搜索记录(500亿次查询)来寻找查询中的“对象”,将它们分为60个类别,并根据对象的分类把每个查询分别映射为几种可能的“用户意图”的一种,然后计算用户在每种意图下寻找对象的(可能性的)百分比,然后通过NP-hard最优化问题,最大化用户对相关的常用模糊查询的满意概率。
例如,对[jaguar]和[beethoven],显示分类结果为car/animal/drink和movie/composer,然而对于产品搜索,结果将是关于buy’, ‘reviews’ 和 ‘feedback’意图的。
参见 http://company.yandex.com/genera… Spectrum 部分, 以及俄语资料 http://habrahabr.ru/company/yand…
and http://plakhov.livejournal.com/1…
说说blekko

7月份的时候,申请到blekko的内测邀请,感受了下这个崭新的搜索引擎,当时就想写写,结果一拖再拖到了今天。。。今天早上看到读写网的编辑Marshall Kirkpatrick写的一篇文章:如何在工作中使用blekko,觉得还是结合这篇文章写写对blekko的感受吧。
先说说blekko的创始人Rich Skrenta,来头不小。1982年,在他15岁的时候,就写下了感染Apple II电脑的Elk Cloner病毒,这被认为是第一个大规模自我传播的个人电脑病毒,对此的介绍可查看这里。
blekko的发布历程:
07年6月,Rich Skrenta离开一手创办的Topix,与其他5名Topix核心团队成员创建了Blekko。开始为挑战google PageRank模式,与搜索巨头们竞争做准备(可以关注其blog)。
07年9月,Blekko获得来自Baseline Ventures、两名早期的google员工以及创业团队手的200万美元种子基金。
08年1月,科技博客techcrunch对blekko的报道,算是对这个初创公司第一篇公开的报道。
从08年到10年,blekko一直在封闭开发,网站的首页从一张Rich女儿的布娃娃画变成了一个出现了coming soon的字样的搜索框。虽然一直没有任何实质的消息,blekko却累计获得了2000多万美元的风险投资。
10年7月,blekko终于coming soon,开始邀请内测,测试引擎,获得反馈。
再到11月,blekko beta版最终上线了。
即时检索重要吗
最近社交网络的红火越来越映衬出即时搜索的需求,一时间炒作频起,关于实时搜索,成了IT的一个时髦名词。facebook开放部分数据,bing推出实时搜索,紧接着,google也在昨天有了social search(google之前的很多项目也都反映了实时性)。这不,yahoo也说我们早就在评估了,正在弄着呢。在前段时间的web2.0会上,有专业人士提出,“未来主宰网络的是Twitter、 Facebook、Apple 和 eBay,而不是 Google”。有人解读为了即时搜索,我觉得他们提供的大量无用信息在信息膨胀的时代,是一种对人的迫害。。。
Twitter、Facebook要想独当一面,首先就要解决去噪问题,如何识别并摒除垃圾信息。即时信息显然很重要,但是当前的即时发布平台大多数都是无聊的文字,我们看到某人关注了上百上千个人的信息发布,如果他的关注是真的关注,那他太痛苦了。这种感受大家都会有,要从大量无意义的事物中找到一个亮点,而且需要人工完成。这个问题如果能够很好的解决,不光是即时信息,IT的整个格局都会发生转变。可是,现在牵扯到智能的东西,研究和现实的差距还是很大的。
[zz]雅虎与微软达成搜索引擎合作协议

雅虎和微软从合并,到合作,终于熬出头,于今天签下合作协议。
跟我们之前预测的一样,微软将为雅虎提供搜索引擎,同时雅虎成为两家公司在全球广告业务的独家代理商。
合作的重点包括:
- 合作期长达10年
- 微软将购买10年的雅虎核心搜索技术授权,并将其与自家的搜索平台(就是Bing)整合在一起
- 微软的Bing搜索引擎将成为雅虎网站独家搜索算法和点击付费搜索独家平台
- 雅虎也可以继续使用自己的技术和数据,以使自家业务更好的显示广告
- 雅虎将成为两家公司在全球广告业务的独家代理商
- 两家公司的自助广告业务都将在微软的AdCenter平台进行,所有搜索广告的价格由AdCenter自动拍卖流程决定
- 两家公司都可保留各自独立的显示广告业务和销售队伍
- 即便雅虎使用了微软的搜索技术,但将依然改进搜索的用户体验和创新
- 在前5年,微软需要为雅虎网络旗下品牌网站和由雅虎运营的网站为其Bing搜索带来的流量支付88%的流量费用
- 微软要补偿部分雅虎网络旗下品牌网站和由雅虎运营的网站搜索带来的收入
- 微软保证合作的前18个月里,雅虎网络旗下品牌网站和由雅虎运营的网站按点击搜索的广告收入在各个国家都保持合作前的水平
好复杂的合作,不过希望雅虎和微软可以稍微的挑战一下Google一家独大的搜索市场。
Via TechCrunch
原文地址:http://google.org.cn/posts/microsoft-yahoo-search-deal.html
ALIPR+ACQUINE:图像自动标注和审美评价推理

1. ALIPR(Automatic Linguistic Indexing of Pictures-Real Time)是宾夕法尼亚州立大学的Jia Li和James Wang(据说都是国人)开发的图像标注系统,可以对用户上传的自动识别和标注,通过机器学习的方法,对图像的像素内容如纹理颜色等分析,以期获得图像的语义含义,以改进当前图像手工标注和当前主流检索中基于关键字和图像相关文本内容的检索方法。
Wolfram Alpha计算型知识引擎
关于Wolfram Alpha的报道,随着最终发布日期的到来(5.18),越来越多,大家对这个新一代搜索引擎也充满了期待。本来想写一下相关内容,又觉得不是那么容易@@。。。幸好读写网中文版遵循共创原则,这里就直接拿来主义了,中文链接1,2,英文原文链接1,2。读写网不错,IT同胞们可以关注下,嘿嘿。总的来说,和现有的流行搜索引擎很不一样,也不同于当前的语义搜索引擎,属于知识搜索的范畴,通过用户的提问根据计算直接给出相关的答案,在查询处理和信息检索基础上的问答式系统。
Continue reading »
[zz] wikiCFP
在ICTExtr9的专栏上看到的,这个wiki在google alert里经常出现,这次又发现有人介绍,而且是做检索相关研究的,就直接copy过来了。在此感谢原搜集者,希望对大家有用!
1. 推荐一个查找近期会议的网站-wikicfp
Wikicfp
http://www.wikicfp.com/
有很多人把各种会议的call for paper发到这个网站上。
可以管理自己关注的会议列表并按照多种方式排序,比如,按deadline排序
2. 相关会议列表
在wikicfp上维护了一个信息抽取相关会议的列表:
http://www.wikicfp.com/cfp/servlet/event.showlist?lownerid=2907<ype=w&page=1&sortby=0
[ZZ]哈工大中文信息处理人物谱
zz from here,根据第一位前辈的年龄,这篇应该是06年的数据 了,以备参考
王开铸教授,1932年出生,74岁,80年代从事俄汉机器翻译、固定段落理解与问答系统的研究,90年代开始进行自动文摘、自动校对的研究。曾任哈工大计算机系系主任8年,已退休多年。
google, semantics

Did Google Just Expose Semantic Data in Search Results? ReedWriteWeb的Marshall Kirkpatrick,6号写了一篇这样的文章,立刻收到了极大的关注。他通过对google search的Q&A查询的反馈结果,猜想google可能采用了查询的结构化处理。这与以往google采用的PageRank以及流行度的分析等方法哟明显的不同,现在Yahoo,PowerSet,ASK,Hikia的语义检索大张旗鼓的进行,google的这一点的尝试和修改,无论是对竞争对手还是普通用户都是一个信号。因此,在这篇文章的提示下,有了许多文章。Yes, Google Is Doing Semantic Search ,里说google已经加入了语义搜索的聚会,并表示google的这项技术早在05年就开始了,有一篇官方的blog为佐。arnold在读了这篇文章后也认为这是一个有价值的无责任实验,一个重要的信号。
当然,技术并不是人而且还不是成熟的,它还是要基于许多无法考证的资料来推理总结以试图给予用户确切答案。Daniel Nations发现一个可笑的错误,根据google的结果,基督是出生在1963年的。。。我在尝试相同的查询时,已经没有了答案,而且那片文章中下午还存在图片晚上也不见了,难道也被rivercrab掉了?
ps:上图是我用google.com查询who is the president of the USA?的结果。查vice president以及who will be the president of the USA?都不会有结果提示了。。。但是把the USA改成China,主席和副主席都能直接给答案了 呵呵 :rolleyes:
豆瓣电台
链接表
近期评论
- hbn 发表在《骑车》
- zhaozz 发表在《走跑骑爬打,运动多样化》
- hbn 发表在《走跑骑爬打,运动多样化》
- 刘苏 发表在《hello, 2010》
- Bony 发表在《hello, 2010》

yandex是俄罗斯第一大搜索引擎,在俄罗斯拥有
