<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>可乐福的家园 &#187; search</title>
	<atom:link href="http://clfour.com/tag/search/feed/" rel="self" type="application/rss+xml" />
	<link>http://clfour.com</link>
	<description>fun being me</description>
	<lastBuildDate>Sat, 31 Dec 2011 14:36:38 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>Yandex的Spectrum如何工作？</title>
		<link>http://clfour.com/2011/04/how-does-yandexs-spectrum-work/</link>
		<comments>http://clfour.com/2011/04/how-does-yandexs-spectrum-work/#comments</comments>
		<pubDate>Fri, 08 Apr 2011 11:23:51 +0000</pubDate>
		<dc:creator>Fred</dc:creator>
				<category><![CDATA[折腾]]></category>
		<category><![CDATA[资讯]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[quora]]></category>
		<category><![CDATA[search]]></category>
		<category><![CDATA[semantic search]]></category>
		<category><![CDATA[翻译]]></category>

		<guid isPermaLink="false">http://clfour.com/?p=1834</guid>
		<description><![CDATA[yandex是俄罗斯第一大搜索引擎，在俄罗斯拥有64.9%的市场占有率（数据为liveinternet.ru最近3月平均值，google为21.6%），TechCrunch 2010.12.15日的文章指出当日yandex在搜索引擎中开始键入新的技术spectrum以改善用户体验。根据TechCrunch的文章和yandex的官方技术介绍，spectrum融合语义技术和机器学习对用户的模糊查询推理，挖掘用户潜在的查询意图，消除查询语义的模糊。其实对spectrum的简单介绍，官方技术介绍比较容易理解的。在quora上有人问这个问题，yandex的CTO的回答如下： How does Yandex&#8217;s Spectrum work? techcrunch 2010.12.15号的文章 Ilya Segalovich, yandex首席技术官，联合创始人 Yandex分析海量的搜索记录（500亿次查询）来寻找查询中的“对象”，将它们分为60个类别，并根据对象的分类把每个查询分别映射为几种可能的“用户意图”的一种，然后计算用户在每种意图下寻找对象的（可能性的）百分比，然后通过NP-hard最优化问题，最大化用户对相关的常用模糊查询的满意概率。 例如，对[jaguar]和[beethoven]，显示分类结果为car/animal/drink和movie/composer，然而对于产品搜索，结果将是关于buy’, ‘reviews’ 和 ‘feedback’意图的。 参见 http://company.yandex.com/genera&#8230; Spectrum 部分, 以及俄语资料 http://habrahabr.ru/company/yand&#8230; and http://plakhov.livejournal.com/1&#8230;]]></description>
			<content:encoded><![CDATA[<div>
<div>
<div id="ld_Qt4lfJ_3236">
<div>
<div id="__w2_grsGNDa_buttons"><a id="__w2_grsGNDa_answer_vote_up_link" href="http://www.quora.com/How-does-Yandexs-Spectrum-work#"> </a><a id="__w2_grsGNDa_answer_vote_down_link" href="http://www.quora.com/How-does-Yandexs-Spectrum-work#"> </a><img class="aligncenter" title="yandex" src="http://s1.homezz.com/201104/3169_o.png" alt="" width="400" height="300" />yandex是俄罗斯第一大搜索引擎，在俄罗斯拥有<span>64.9%的市场占有率（数据为</span>liveinternet.ru最近3月平均值，google为21.6%<span>），TechCrunch 2010.12.15日的<a href="http://eu.techcrunch.com/2010/12/15/russian-search-engine-yandex-gets-a-semantic-injection/" target="_blank">文章</a>指出当日yandex在搜索引擎中开始键入新的技术spectrum以改善用户体验。根据TechCrunch的文章和yandex的官方技术<a href="http://company.yandex.com/technologies/spectrum.xml" target="_blank">介绍</a></span>，spectrum融合语义技术和机器学习对用户的模糊查询推理，挖掘用户潜在的查询意图，消除查询语义的模糊。其实对spectrum的简单介绍，官方技术<a href="http://company.yandex.com/technologies/spectrum.xml" target="_blank">介绍</a>比较容易理解的。在quora上有人问这个问题，yandex的CTO的回答如下：</div>
</div>
</div>
</div>
</div>
<blockquote>
<div>How does Yandex&#8217;s Spectrum work?</div>
<div>techcrunch 2010.12.15号的<a href="http://eu.techcrunch.com/2010/12/15/russian-search-engine-yandex-gets-a-semantic-injection/" target="_blank">文章</a></div>
<div><a href="http://www.quora.com/Ilya-Segalovich">Ilya Segalovich</a>, yandex首席技术官，联合创始人</div>
<p>Yandex分析海量的搜索记录（500亿次查询）来寻找查询中的“对象”，将它们分为60个类别，并根据对象的分类把每个查询分别映射为几种可能的“用户意图”的一种，然后计算用户在每种意图下寻找对象的（可能性的）百分比，然后通过NP-hard最优化问题，最大化用户对相关的常用模糊查询的满意概率。</p>
<p>例如，对[jaguar]和[beethoven]，显示分类结果为car/animal/drink和movie/composer，然而对于产品搜索，结果将是关于buy’,  ‘reviews’ 和 ‘feedback’意图的。<br />
参见 <a rel="nofollow" href="http://company.yandex.com/general_info/technologies.xml" target="_blank">http://company.yandex.com/genera&#8230;</a> Spectrum 部分, 以及俄语资料 <a rel="nofollow" href="http://habrahabr.ru/company/yandex/blog/110059/" target="_blank">http://habrahabr.ru/company/yand&#8230;</a><br />
and <a rel="nofollow" href="http://plakhov.livejournal.com/150737.html" target="_blank">http://plakhov.livejournal.com/1&#8230;</a></p></blockquote>
]]></content:encoded>
			<wfw:commentRss>http://clfour.com/2011/04/how-does-yandexs-spectrum-work/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>说说blekko</title>
		<link>http://clfour.com/2010/11/about-blekko/</link>
		<comments>http://clfour.com/2010/11/about-blekko/#comments</comments>
		<pubDate>Mon, 08 Nov 2010 12:25:35 +0000</pubDate>
		<dc:creator>Fred</dc:creator>
				<category><![CDATA[折腾]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[mine]]></category>
		<category><![CDATA[search]]></category>

		<guid isPermaLink="false">http://clfour.com/?p=1752</guid>
		<description><![CDATA[blekko简介 blekko应用 blekko使用]]></description>
			<content:encoded><![CDATA[<p style="text-align: center;"><img class="size-full wp-image-1763 aligncenter" title="blekko" src="http://clfour.com/wp-content/uploads/2010/11/blekko.png" alt="" width="595" height="171" /></p>
<p>﻿7月份的时候，申请到blekko的内测邀请，感受了下这个崭新的搜索引擎，当时就想写写，结果一拖再拖到了今天。。。今天早上看到读写网的编辑Marshall Kirkpatrick写的一篇文章：<a href="http://www.readwriteweb.com/archives/how_to_use_blekko_to_rock_at_your_job.php" target="_blank">如何在工作中使用blekko</a>，觉得还是结合这篇文章写写对blekko的感受吧。</p>
<p>先说说blekko的创始人Rich Skrenta，来头不小。1982年，在他15岁的时候，就写下了感染Apple II电脑的Elk Cloner病毒，这被认为是第一个大规模自我传播的个人电脑病毒，对此的介绍可查看<a href="http://wiki.chinalabs.com/index.php?doc-view-132022" target="_blank">这里</a>。</p>
<p><strong>blekko的发布历程：</strong></p>
<p>07年6月，Rich Skrenta离开一手创办的Topix，与其他5名Topix核心团队成员创建了Blekko。开始为挑战google PageRank模式，与搜索巨头们竞争做准备（可以关注其<a href="http://www.skrenta.com/" target="_blank">blog</a>）。</p>
<p>07年9月，Blekko获得来自Baseline  Ventures、两名早期的google员工以及创业团队手的200万美元种子基金。</p>
<p>08年1月，科技博客techcrunch对blekko的<a href="http://techcrunch.com/2008/01/02/the-next-google-search-challenger-blekko/" target="_blank">报道</a>，算是对这个初创公司第一篇公开的报道。</p>
<p>从08年到10年，blekko一直在封闭开发，网站的首页从一张Rich女儿的布娃娃画变成了一个出现了coming soon的字样的搜索框。虽然一直没有任何实质的消息，blekko却累计获得了2000多万美元的风险投资。</p>
<p>10年7月，blekko终于coming soon，开始邀请内测，测试引擎，获得反馈。</p>
<p>再到11月，blekko beta版最终上线了。</p>
<p><strong><span id="more-1752"></span>blekko的特点：</strong></p>
<p>blekko最大的特点就是其标榜的“slashtag”，通过slashtag限定各种具体搜索任务的检索源集合，个性化的搜索网页内容，应该算是对定制化搜索的一种升级。slashtag分为三种，user slashtags，built-in slashtags，topic slashtags。user slashtags可以根据用户自定义的搜索网站集合进行个性化搜索（类似于google custom search），用户可以创建自己的slashtag，也可以使用其他人分享的slashtag。built-in slashtags是blekko预定义的内置slashtag，用于特殊搜索属性的限制。topic slashtags是blekko预定义的一些相关主题top网站的集合。通过slashtag，用户从海量的网页内容中“砍掉”了大量无用的信息，可以准确的限定搜索引擎分析网页的范围，降低页面的不相关性，提高检索准确度。slashtag可以通过添加url，上传文本或opml文件创建，也可以导入已有的slashtag，用户已有的slashtag可以设置为公开或者私有。并且，可以建立slashtag的rss feed来订阅结果。</p>
<p>在结果界面中，与传统搜索引擎无太大区别，只不过在每条结果中加入了一些元数据元素，例如该地址的seo（这个比较强悍），links，cache等信息，并且结果可以按相关度或日期两种方式排列。另外，对于结果条目用户可以做标签或者spam之。</p>
<p>另外，blekko还有一定的社交性，用户可以follow他人的slashtag，评论结果，发送状态，发twitter等。</p>
<p><strong>使用blekko：</strong></p>
<p>按照目前的理解，blekko适合于有明确目的的高级用户的搜索任务，特别是对会多次使用的搜索场景。例如科技工作者会针对某几个针对性的领域网站或者主题进行一些列的搜索，这时就能很好的利用blekko的特点，并且进一步优化slashtag供以后时候。而对于偶尔为之的初级用户，上手和添加高质量的slashtag可能会比较困难。关于使用，可以参考上面提到的读写网的编辑Marshall Kirkpatrick的<a href="http://www.readwriteweb.com/archives/how_to_use_blekko_to_rock_at_your_job.php" target="_blank">文章</a>。他介绍了自己如何利用blekko创建、管理和使用slashtag进行工作，并与google custon search engine做了比较。</p>
<p><strong>总结blekk</strong><strong>o：</strong></p>
<p>在blekko从最初获得报道到现在beta版全面上线，业界对其的怀疑从来没有停止过，观望、不看好的态度比较普遍。或许blekko有点生不逢时了，现在已不是搜索引擎最风光的时代，之前一大批标榜挑战google的搜索引擎相继偃旗息鼓，而以twitter，facebook为代表的网络新势力力量日益强大，真正的在影响整个互联网，这时blekko才进入公众眼帘，延续和进化着搜索概念，不知是不是为时已晚。</p>
<p>总体来说，blekko是一款很有技巧性的定制化搜索引擎，能通过slashtag更可信和准确的搜索结果，具有一定的共享能力。如果对于高级用户的话，会相当酷，但是面向大众的偶然性搜索，使用起来很是费劲的。估计，这个搜索引擎不会对目前的格局造成太大的影响，毕竟大多数使用者不会有这么专业的要求（不过据说内测期的回访率不错）。或许blekko会被收购，卖个不错的价钱。</p>
<p>blekko还在beta中，还在不断的成长，现在的功能已经比内测时有了提高，blekko是个很酷的引擎，slashtag是个很酷的概念，从商业上前途难卜，不过从技术上和应用上确实是一个大进步。如Kirkpatrick所言，在blekko还活着的时候，就尽情的使用吧。</p>
<p><strong>blekko的地址：</strong><a href="http://blekko.com/">http://blekko.com</a></p>
]]></content:encoded>
			<wfw:commentRss>http://clfour.com/2010/11/about-blekko/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>即时检索重要吗</title>
		<link>http://clfour.com/2009/10/real-time-search/</link>
		<comments>http://clfour.com/2009/10/real-time-search/#comments</comments>
		<pubDate>Wed, 28 Oct 2009 13:47:18 +0000</pubDate>
		<dc:creator>Fred</dc:creator>
				<category><![CDATA[折腾]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[mine]]></category>
		<category><![CDATA[search]]></category>
		<category><![CDATA[thinking]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=1088</guid>
		<description><![CDATA[最近社交网络的红火越来越映衬出即时搜索的需求，一时间炒作频起，关于实时搜索，成了IT的一个时髦名词。facebook开放部分数据，bing推出实时搜索，紧接着，google也在昨天有了social search（google之前的很多项目也都反映了实时性）。这不，yahoo也说我们早就在评估了，正在弄着呢。在前段时间的web2.0会上，有专业人士提出，“未来主宰网络的是Twitter、 Facebook、Apple 和 eBay，而不是 Google”。有人解读为了即时搜索，我觉得他们提供的大量无用信息在信息膨胀的时代，是一种对人的迫害。。。 Twitter、Facebook要想独当一面，首先就要解决去噪问题，如何识别并摒除垃圾信息。即时信息显然很重要，但是当前的即时发布平台大多数都是无聊的文字，我们看到某人关注了上百上千个人的信息发布，如果他的关注是真的关注，那他太痛苦了。这种感受大家都会有，要从大量无意义的事物中找到一个亮点，而且需要人工完成。这个问题如果能够很好的解决，不光是即时信息，IT的整个格局都会发生转变。可是，现在牵扯到智能的东西，研究和现实的差距还是很大的。 改进当前闲聊的消息形式。现在的社交网络，如同一个party，大家三五成群的闲聊，如果你听别人说过了某人某事，你也就加进来共话之。这是一种很好的社交模式，但并不是很好的学习和知识获取模式，虽然在庞大的用户中，有能解答我们问题的人。在社会化查询中，我们得到的知识多是浅层的或者非专业的，形象化的描述往往忽略了知识的完备性。传统的检索更能提供对知识的多样性需求，不管是公认的常识，经典的知识描述文章，热门的信息。这些在社交网中很难一步到位，而且信息的准确性也很难判别。 转变过于单一的局域网。或许是因为墙的原因，对facebook的关注越来越少，在国内众多山寨facebook间的争斗也在一定程度上影响了用户体验。他们在Twitter的光芒下有点褪色了。不过从表现形式上，它所能创造的价值或许更多，能有很好的持久性。T简单直观，很容易流行，不过也有可能很快就流行结束了，无用无聊的充斥或许会让人提前厌烦。就像今天Mr。6分析的Crocs案例一样。T单一的形式让处理相对简单，他的优势在于人数的巨多和即时信息量的巨大，但是信息来源过于单一。这就造成了他信息应用的缺陷。而facebook的数据可能会更有价值，当然这要看他的发展计划和投资者的支持度了。就目前而言，facebook没看到进步的地方，除了社交影响力，发挥的作用也大有局限。 上面这些问题其实也都影响了即时搜索，我们能很快的得到消息，但是目前还没有很好的消息处理模式。另外，即时信息的即时性并不能代表信息的重要性。即时信息是人们信息需求急需的一个环节，却不代表是最重要的环节，我们的即时需求不代表即时信息，我们的即时信息需求也是在已有的知识基础上的需求。所以，我认为即时信息是信息搜索的一个有力的补充，会扮演重要的角色，但是却不太可能统领全局。 图片来自suero!的相册© CC]]></description>
			<content:encoded><![CDATA[<p><img class="size-full wp-image-1089 alignleft" title="delivery" src="http://clfour.com/wp-content/uploads/2009/10/delivery1.jpg" alt="delivery" width="241" height="250" /> 最近社交网络的红火越来越映衬出即时搜索的需求，一时间炒作频起，关于实时搜索，成了IT的一个时髦名词。facebook开放部分数据，bing推出实时搜索，紧接着，google也在昨天有了social search（google之前的很多项目也都反映了实时性）。这不，yahoo也说我们早就在评估了，正在弄着呢。在前段时间的web2.0会上，有专业人士提出，“未来主宰网络的是Twitter、 Facebook、Apple 和 eBay，而不是 Google”。有人解读为了即时搜索，我觉得他们提供的大量无用信息在信息膨胀的时代，是一种对人的迫害。。。</p>
<p>Twitter、Facebook要想独当一面，<strong>首先就要解决去噪问题</strong>，如何识别并摒除垃圾信息。即时信息显然很重要，但是当前的即时发布平台大多数都是无聊的文字，我们看到某人关注了上百上千个人的信息发布，如果他的关注是真的关注，那他太痛苦了。这种感受大家都会有，要从大量无意义的事物中找到一个亮点，而且需要人工完成。这个问题如果能够很好的解决，不光是即时信息，IT的整个格局都会发生转变。可是，现在牵扯到智能的东西，研究和现实的差距还是很大的。</p>
<p><strong><span id="more-1088"></span> 改进当前闲聊的消息形式</strong>。现在的社交网络，如同一个party，大家三五成群的闲聊，如果你听别人说过了某人某事，你也就加进来共话之。这是一种很好的社交模式，但并不是很好的学习和知识获取模式，虽然在庞大的用户中，有能解答我们问题的人。在社会化查询中，我们得到的知识多是浅层的或者非专业的，形象化的描述往往忽略了知识的完备性。传统的检索更能提供对知识的多样性需求，不管是公认的常识，经典的知识描述文章，热门的信息。这些在社交网中很难一步到位，而且信息的准确性也很难判别。</p>
<p><strong> 转变过于单一的局域网</strong>。或许是因为墙的原因，对facebook的关注越来越少，在国内众多山寨facebook间的争斗也在一定程度上影响了用户体验。他们在Twitter的光芒下有点褪色了。不过从表现形式上，它所能创造的价值或许更多，能有很好的持久性。T简单直观，很容易流行，不过也有可能很快就流行结束了，无用无聊的充斥或许会让人提前厌烦。就像今天Mr。6分析的Crocs案例一样。T单一的形式让处理相对简单，他的优势在于人数的巨多和即时信息量的巨大，但是信息来源过于单一。这就造成了他信息应用的缺陷。而facebook的数据可能会更有价值，当然这要看他的发展计划和投资者的支持度了。就目前而言，facebook没看到进步的地方，除了社交影响力，发挥的作用也大有局限。</p>
<p>上面这些问题其实也都影响了即时搜索，我们能很快的得到消息，但是目前还没有很好的消息处理模式。另外，即时信息的即时性并不能代表信息的重要性。即时信息是人们信息需求急需的一个环节，却不代表是最重要的环节，我们的即时需求不代表即时信息，我们的即时信息需求也是在已有的知识基础上的需求。所以，我认为即时信息是信息搜索的一个有力的补充，会扮演重要的角色，但是却不太可能统领全局。</p>
<p>图片来自<a href="http://www.flickr.com/photos/suero_estudio/3937773744/" target="_blank">suero!</a>的相册© <a href="http://creativecommons.org/licenses/by-nc-nd/2.0/deed.zh" target="_blank">CC</a></p>
]]></content:encoded>
			<wfw:commentRss>http://clfour.com/2009/10/real-time-search/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>[zz]雅虎与微软达成搜索引擎合作协议</title>
		<link>http://clfour.com/2009/07/zz-microsoft-yahoo/</link>
		<comments>http://clfour.com/2009/07/zz-microsoft-yahoo/#comments</comments>
		<pubDate>Wed, 29 Jul 2009 15:10:27 +0000</pubDate>
		<dc:creator>Fred</dc:creator>
				<category><![CDATA[资讯]]></category>
		<category><![CDATA[bing]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[ms]]></category>
		<category><![CDATA[search]]></category>
		<category><![CDATA[yahoo]]></category>
		<category><![CDATA[ZZ]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=1013</guid>
		<description><![CDATA[雅虎和微软从合并，到合作，终于熬出头，于今天签下合作协议。 跟我们之前预测的一样，微软将为雅虎提供搜索引擎，同时雅虎成为两家公司在全球广告业务的独家代理商。 合作的重点包括： 合作期长达10年 微软将购买10年的雅虎核心搜索技术授权，并将其与自家的搜索平台（就是Bing）整合在一起 微软的Bing搜索引擎将成为雅虎网站独家搜索算法和点击付费搜索独家平台 雅虎也可以继续使用自己的技术和数据，以使自家业务更好的显示广告 雅虎将成为两家公司在全球广告业务的独家代理商 两家公司的自助广告业务都将在微软的AdCenter平台进行，所有搜索广告的价格由AdCenter自动拍卖流程决定 两家公司都可保留各自独立的显示广告业务和销售队伍 即便雅虎使用了微软的搜索技术，但将依然改进搜索的用户体验和创新 在前5年，微软需要为雅虎网络旗下品牌网站和由雅虎运营的网站为其Bing搜索带来的流量支付88%的流量费用 微软要补偿部分雅虎网络旗下品牌网站和由雅虎运营的网站搜索带来的收入 微软保证合作的前18个月里，雅虎网络旗下品牌网站和由雅虎运营的网站按点击搜索的广告收入在各个国家都保持合作前的水平 好复杂的合作，不过希望雅虎和微软可以稍微的挑战一下Google一家独大的搜索市场。 Via TechCrunch ps:现在微软的搜索业务更加强大了。bing＋powerset＋searchmonkey？语义方面足够牛了吧。微软很赢阿。。。可怜的yahoo ＠＠ 文章转载自：谷奥——探寻谷歌的奥秘 [http://google.org.cn] 原文地址：http://google.org.cn/posts/microsoft-yahoo-search-deal.html]]></description>
			<content:encoded><![CDATA[<p><img class="aligncenter size-full wp-image-1014" title="microsoft-yahoo" src="http://clfour.com/wp-content/uploads/2009/07/microsoft-yahoo1.png" alt="microsoft-yahoo" width="299" height="91" /></p>
<p>雅虎和微软从合并，到合作，终于熬出头，于今天签下合作协议。</p>
<p><a href="http://google.org.cn/posts/yahoo-and-microsoft-become-partner-on-search-this-week.html" target="_blank">跟我们之前预测的一样</a>，微软将为雅虎提供搜索引擎，同时雅虎成为两家公司在全球广告业务的独家代理商。</p>
<p>合作的重点包括：</p>
<ul>
<li>合作期长达10年</li>
<li>微软将购买10年的雅虎核心搜索技术授权，并将其与自家的搜索平台（就是Bing）整合在一起</li>
<li>微软的Bing搜索引擎将成为雅虎网站独家搜索算法和点击付费搜索独家平台</li>
<li>雅虎也可以继续使用自己的技术和数据，以使自家业务更好的显示广告</li>
<li>雅虎将成为两家公司在全球广告业务的独家代理商</li>
<li>两家公司的自助广告业务都将在微软的AdCenter平台进行，所有搜索广告的价格由AdCenter自动拍卖流程决定</li>
<li>两家公司都可保留各自独立的显示广告业务和销售队伍</li>
<li>即便雅虎使用了微软的搜索技术，但将依然改进搜索的用户体验和创新</li>
<li>在前5年，微软需要为雅虎网络旗下品牌网站和由雅虎运营的网站为其Bing搜索带来的流量支付88%的流量费用</li>
<li>微软要补偿部分雅虎网络旗下品牌网站和由雅虎运营的网站搜索带来的收入</li>
<li>微软保证合作的前18个月里，雅虎网络旗下品牌网站和由雅虎运营的网站按点击搜索的广告收入在各个国家都保持合作前的水平</li>
</ul>
<p>好复杂的合作，不过希望雅虎和微软可以稍微的挑战一下Google一家独大的搜索市场。</p>
<p>Via <a href="http://www.techcrunch.com/2009/07/29/microsoft-yahoo-search-deal-the-most-important-facts-and-some-opinion/" target="_blank">TechCrunch</a></p>
<div>ps:现在微软的搜索业务更加强大了。bing＋powerset＋searchmonkey？语义方面足够牛了吧。微软很赢阿。。。可怜的yahoo ＠＠</div>
<div>文章转载自：<strong>谷奥——探寻谷歌的奥秘</strong> [<a href="http://google.org.cn/">http://google.org.cn</a>]<br />
原文地址：<a href="http://google.org.cn/posts/microsoft-yahoo-search-deal.html">http://google.org.cn/posts/microsoft-yahoo-search-deal.html</a></div>
]]></content:encoded>
			<wfw:commentRss>http://clfour.com/2009/07/zz-microsoft-yahoo/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>ALIPR+ACQUINE:图像自动标注和审美评价推理</title>
		<link>http://clfour.com/2009/05/alipr-acquine/</link>
		<comments>http://clfour.com/2009/05/alipr-acquine/#comments</comments>
		<pubDate>Mon, 18 May 2009 16:15:17 +0000</pubDate>
		<dc:creator>Fred</dc:creator>
				<category><![CDATA[折腾]]></category>
		<category><![CDATA[资讯]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[search]]></category>
		<category><![CDATA[语义]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=799</guid>
		<description><![CDATA[1. ALIPR(Automatic Linguistic Indexing of Pictures-Real Time)是宾夕法尼亚州立大学的Jia Li和James Wang(据说都是国人)开发的图像标注系统，可以对用户上传的自动识别和标注，通过机器学习的方法，对图像的像素内容如纹理颜色等分析，以期获得图像的语义含义，以改进当前图像手工标注和当前主流检索中基于关键字和图像相关文本内容的检索方法。 在起始阶段，通过大量已标注图像的训练集，使系统学习，在用户上传图片时，系统根据用户图片的内容信息对内容做基于统计学习的判断，给出相关标注，供用户选择或增加，这样就完成了图像的标注和反馈过程。接下来用户根据标注和标题对当前图像库中的图片进行搜索，并可以根据图像找出与之相似的图片。在网站中，你还可以对图片进行评分(不知道是不是和接下来的审美评价有关)，另外还可以根据语言描述故事，来找与之有联系的图片(这个似乎还比较弱。。。) 标注自动识，我们发现一张有猴子头像的咖啡图片，经过识别为以上的关键字，我们选中相关的标签，并可以根据上传内容，增加新的标签。 标注完成后，根据图像内容，会给出图片库中与之相似的图片集。 系统可以根据title和tag检索图片，下面是根据coffee检索到的图片，可以输入多关键字。 其实，就上面的来说，当前看来也不算很有新意的方法，不清楚4，5年前是怎样的状况，在08年获得的专利，06年ACM Multimedia conference上有篇他们的文章(Real-Time Computerized Annotation of Pictures)，现在试试他们的系统，虽然明显还是实验阶段，离商用还有距离了，但是能把产品开发到这种程度，这才是做学问厉害的地方。其实阅读国外的文献的时候，很多情况下，他们做的东西，认真研究研究，也不都是高深莫测，很多都是具有实践性的，甚至看透了理论性似乎也不是那么高不可攀，难得的地方就是能扎实的做下去。反观国内的。。。呵呵，难怪有那么多在国外高校奋斗的华人，当我们在追求指标的时候，却忘了自己起飞的地方是大地。 =========================part 2========================= 2. 在ALIPR上线之后，今年四月，ACQUINE(Aesthetic Quality Inference Engine)也公布于众，这个审美评价推理引擎可以对用户上传的图片基于审美学打分，分数为0-100。它也是对现有的资源机器学习的基础上，对用户图片分析并给出判断。这套系统的好玩之处就是可以让机器评价你的作品，或许以后摄影比赛征选作品就可以用它来筛选了。根据James Z. Wang的描述，这套系统已经达到80%的正确率，接下来还会继续改进。而且他也提到，对图片的审美评价只是人类感情的一方面，在接下来的研究中，他们或许会去努力获取图片激发人们的其他感情。这项研究由国家科学基金(NSF)资助。研究人员之前曾用相似的技术来检测梵高的作品(没说检测结果怎样。。。)，我上传了2张照片，第一张感觉还行，第二章觉得很可以了。可是评价分别是9分和22.2分。哎。。。到底是谁的错 :qustion: [...]]]></description>
			<content:encoded><![CDATA[<p style="text-align: center;"><img class="size-medium wp-image-804  aligncenter" title="alipr" src="http://clfour.com/wp-content/uploads/2009/05/alipr2.jpg" alt="alipr" width="500" height="343" /></p>
<p><strong>1.</strong><a href="http://www.alipr.com/" target="_blank"> ALIPR</a>(Automatic Linguistic Indexing of Pictures-Real Time)是宾夕法尼亚州立大学的Jia Li和James Wang(据说都是国人)开发的图像标注系统，可以对用户上传的自动识别和标注，通过机器学习的方法，对图像的像素内容如纹理颜色等分析，以期获得图像的语义含义，以改进当前图像手工标注和当前主流检索中基于关键字和图像相关文本内容的检索方法。</p>
<p><span id="more-799"></span>在起始阶段，通过大量已标注图像的训练集，使系统学习，在用户上传图片时，系统根据用户图片的内容信息对内容做基于统计学习的判断，给出相关标注，供用户选择或增加，这样就完成了图像的标注和反馈过程。接下来用户根据标注和标题对当前图像库中的图片进行搜索，并可以根据图像找出与之相似的图片。在网站中，你还可以对图片进行评分(不知道是不是和接下来的审美评价有关)，另外还可以根据语言描述故事，来找与之有联系的图片(这个似乎还比较弱。。。)</p>
<p style="text-align: center;"><img class="size-medium wp-image-805  aligncenter" title="test-teache" src="http://clfour.com/wp-content/uploads/2009/05/test-teache2.jpg" alt="test-teache" width="500" height="343" /></p>
<p style="text-align: left;">标注自动识，我们发现一张有猴子头像的咖啡图片，经过识别为以上的关键字，我们选中相关的标签，并可以根据上传内容，增加新的标签。</p>
<p style="text-align: center;"><img class="aligncenter size-medium wp-image-806" title="test-similar" src="http://clfour.com/wp-content/uploads/2009/05/test-similar2.jpg" alt="test-similar" width="500" height="343" /></p>
<p style="text-align: center;">标注完成后，根据图像内容，会给出图片库中与之相似的图片集。</p>
<p style="text-align: center;"><img class="size-medium wp-image-807  aligncenter" title="test-search" src="http://clfour.com/wp-content/uploads/2009/05/test-search2.jpg" alt="test-search" width="500" height="343" /></p>
<p style="text-align: center;">系统可以根据title和tag检索图片，下面是根据coffee检索到的图片，可以输入多关键字。</p>
<p>其实，就上面的来说，当前看来也不算很有新意的方法，不清楚4，5年前是怎样的状况，在08年获得的<a href="http://www.alipr.com/media/docs/US07394947_LI_WANG.pdf" target="_blank">专利</a>，06年ACM Multimedia conference上有篇他们的文章(Real-Time Computerized Annotation of Pictures)，现在试试他们的系统，虽然明显还是实验阶段，离商用还有距离了，但是能把产品开发到这种程度，这才是做学问厉害的地方。其实阅读国外的文献的时候，很多情况下，他们做的东西，认真研究研究，也不都是高深莫测，很多都是具有实践性的，甚至看透了理论性似乎也不是那么高不可攀，难得的地方就是能扎实的做下去。反观国内的。。。呵呵，难怪有那么多在国外高校奋斗的华人，当我们在追求指标的时候，却忘了自己起飞的地方是大地。</p>
<p>=========================part 2=========================</p>
<p style="text-align: center;"><img class="size-medium wp-image-808  aligncenter" title="acquine" src="http://clfour.com/wp-content/uploads/2009/05/acquine2.jpg" alt="acquine" width="500" height="343" /></p>
<p><strong>2.</strong> 在ALIPR上线之后，今年四月，<a href="http://acquine.alipr.com/" target="_blank">ACQUINE</a>(Aesthetic Quality Inference Engine)也公布于众，这个审美评价推理引擎可以对用户上传的图片基于审美学打分，分数为0-100。它也是对现有的资源机器学习的基础上，对用户图片分析并给出判断。这套系统的好玩之处就是可以让机器评价你的作品，或许以后摄影比赛征选作品就可以用它来筛选了。根据James Z. Wang的描述，这套系统已经达到80%的正确率，接下来还会继续改进。而且他也提到，对图片的审美评价只是人类感情的一方面，在接下来的研究中，他们或许会去努力获取图片激发人们的其他感情。这项研究由国家科学基金(NSF)资助。研究人员之前曾用相似的技术来检测梵高的作品(没说检测结果怎样。。。)，我上传了2张照片，第一张感觉还行，第二章觉得很可以了。可是评价分别是9分和22.2分。哎。。。到底是谁的错 :qustion: 所以大家最好不要拿自己的图片来试，嘿嘿，以防打击过重@@ps：上传图片是记录ip的，可以统计你的上传和分数。</p>
<p style="text-align: center;"><img class="size-full wp-image-809  aligncenter" title="acquine-my-photo" src="http://clfour.com/wp-content/uploads/2009/05/acquine-my-photo2.jpg" alt="acquine-my-photo" width="500" height="219" /></p>
<p style="text-align: left;">参考：<a href="http://live.psu.edu/story/20538" target="_blank">1</a>， <a href="http://live.psu.edu/story/35158" target="_blank">2</a>， <a href="http://live.psu.edu/story/39575" target="_blank">3</a>， <a href="http://www.cnbeta.com/articles/84239.htm" target="_blank">4 </a></p>
]]></content:encoded>
			<wfw:commentRss>http://clfour.com/2009/05/alipr-acquine/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Wolfram Alpha计算型知识引擎</title>
		<link>http://clfour.com/2009/05/wolfram-alpha-computational-knowledge-engine/</link>
		<comments>http://clfour.com/2009/05/wolfram-alpha-computational-knowledge-engine/#comments</comments>
		<pubDate>Thu, 14 May 2009 17:44:44 +0000</pubDate>
		<dc:creator>Fred</dc:creator>
				<category><![CDATA[折腾]]></category>
		<category><![CDATA[资讯]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[mine]]></category>
		<category><![CDATA[search]]></category>
		<category><![CDATA[semantic search]]></category>
		<category><![CDATA[ZZ]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=766</guid>
		<description><![CDATA[关于Wolfram Alpha的报道，随着最终发布日期的到来(5.18)，越来越多，大家对这个新一代搜索引擎也充满了期待。本来想写一下相关内容，又觉得不是那么容易@@。。。幸好读写网中文版遵循共创原则，这里就直接拿来主义了，中文链接1，2，英文原文链接1，2。读写网不错，IT同胞们可以关注下，嘿嘿。总的来说，和现有的流行搜索引擎很不一样，也不同于当前的语义搜索引擎，属于知识搜索的范畴，通过用户的提问根据计算直接给出相关的答案，在查询处理和信息检索基础上的问答式系统。 1. Wolfram&#124;Alpha：Google 终结者？ Wolfram&#124;Alpha，号称“Google 终结者”，这个由计算机科学家 Stephen Wolfram 创建的搜索引擎，在过去一段时间，一直在被大家热炒；5 月份将推出正式版。 它所谓的终结者称号，不过是他人慷慨的馈赠，事实上，创始人更愿意将其称为计算型知识引擎。与提供链接的 Google 搜索不同，对于这个知识搜索引擎，你提交一个问题，可得到相应的答案。 Alpha 不是搜索网络获取信息，而是通过公共和授权资源获取大量的经过组织的数据，并利用高级的自然语言处理算法进行计算，得出结果。 在产品演示中，Stephen Wolfram 搜索了“internet users in europe”，当然你也可以使用 Google 或其他搜索引擎来获得这个问题的结果。 但 Alpha 不同在于，它如何显示搜索结果。比如上述搜索，Alpha 不仅返回互联网用户数量，而且还提供了每个国家的用户数量和各种图表（从结果中我们得知，梵蒂冈只有 93 个网民）。 [...]]]></description>
			<content:encoded><![CDATA[<p>关于Wolfram Alpha的报道，随着最终发布日期的到来(5.18)，越来越多，大家对这个新一代搜索引擎也充满了期待。本来想写一下相关内容，又觉得不是那么容易@@。。。幸好<a href="http://blog.it.sohu.com/readwriteweb/" target="_blank">读写网中文版</a>遵循<a href="http://creativecommons.org/licenses/by-nc-sa/2.5/" target="_blank">共创原则</a>，这里就直接拿来主义了，中文链接<a href="http://blog.it.sohu.com/readwriteweb/archives/1774" target="_blank">1</a>，<a href="http://blog.it.sohu.com/readwriteweb/archives/2067" target="_blank">2</a>，英文原文链接<a href="http://www.readwriteweb.com/archives/wolframalpha_our_first_impressions.php" target="_blank">1</a>，<a href="http://www.readwriteweb.com/archives/see_wolfram_alpha_in_action_-_video_and_screenshots.php" target="_blank">2</a>。读写网不错，IT同胞们可以关注下，嘿嘿。总的来说，和现有的流行搜索引擎很不一样，也不同于当前的语义搜索引擎，属于知识搜索的范畴，通过用户的提问根据计算直接给出相关的答案，在查询处理和信息检索基础上的问答式系统。<br />
<span id="more-766"></span></p>
<p><strong>1.</strong><br />
<strong>Wolfram|Alpha：Google 终结者？</strong></p>
<div class="entry-meta"><a title="作者: 译言" href="http://blog.it.sohu.com/readwriteweb/archives/author/yeeyan/"></a></div>
<div class="entry-body">
<p><img src="http://www.readwriteweb.com/images/alpha_logo_apr09.png" alt="alpha_logo_apr09.png" /><a href="http://www.wolframalpha.com/">Wolfram|Alpha</a>，号称“Google 终结者”，这个由计算机科学家  <a href="http://www.crunchbase.com/person/stephen-wolfram">Stephen Wolfram</a> 创建的搜索引擎，在过去一段时间，一直在被大家热炒；5 月份将推出正式版。</p>
<div style="text-align: left;"><img style="width: 586px; height: 130px;" src="https://docs.google.com/File?id=dc8k7fhp_174d7swzpf2_b" alt="" /></div>
<p>它所谓的终结者称号，不过是他人慷慨的馈赠，事实上，创始人更愿意将其称为计算型知识引擎。与提供链接的 Google 搜索不同，对于这个知识搜索引擎，你提交一个问题，可得到相应的答案。</p>
<p>Alpha 不是搜索网络获取信息，而是通过公共和授权资源获取大量的经过组织的数据，并利用高级的自然语言处理算法进行计算，得出结果。</p>
<p>在产品演示中，Stephen Wolfram 搜索了“internet users in europe”，当然你也可以使用 Google 或其他搜索引擎来获得这个问题的结果。</p>
<p>但 Alpha 不同在于，它如何显示搜索结果。比如上述搜索，Alpha 不仅返回互联网用户数量，而且还提供了每个国家的用户数量和各种图表（从结果中我们得知，梵蒂冈只有 93 个网民）。</p>
<p>如果使用 Google 搜索“uncle’s uncle’s brother’s son（堂叔的舅父的哥哥的儿子）”，你会得到这样一个<a title="结果" href="http://www.google.com/search?q=uncle%27s+uncle%27s+brother%27s+son&amp;ie=utf-8&amp;oe=utf-8&amp;aq=t&amp;rls=org.mozilla:en-GB:official&amp;client=firefox-a">结果</a>，很明显，Google 不懂基本的血缘关系。而 Alpha 可提供一份家谱，包括血缘关系系数等信息。对于该示例，该值为 3.125%。</p>
<p>对于 Alpha 与 <a href="http://www.wolfram.com/products/mathematica/index.html">Mathematica</a> 之间的关系，Stephen Wolfram 并没有遮遮掩掩。根据他的说法，Alpha 利用了 500 百万行 Mathematica 代码，而后者当前使用了大约 1 万颗 CPU。为了 Alpha 的正式推出，他再在扩建服务器农场。</p>
<p>Alpha 可以处理很多 Mathematica 能够计算的数学问题，Mathematica 也将是 Alpha API 的第一个使用者，因此，Mathematica 用户将能够访问 Alpha 的数据。</p>
<p><strong>专业版</strong></p>
<p>Alpha 将以免费方式推出，当同时提供付费版，它将为用户提供数据下载和上传。对于专业用户，将不仅能够查看图表，还可以下载生成这些图表的数据，并可以在用户的电脑上或 Mathematica 中使用。</p>
<p><strong>嵌入和通知</strong></p>
<p>很明显，Wolfram 非常了解互联网的游戏规则。用户将不仅可以在自己的页面上嵌入 Wolfram|Alpha 搜索框，还将能够在网站上嵌入搜索结果以及定制的 Alpha 的接口。此外，结果变化时，用户还可以收到电邮通知。</p>
<p><strong>有关该搜索引擎的注释</strong></p>
<blockquote>
<ul>
<li>Alpha 的每个搜索结果页面提供计算结果所用的资源链接</li>
<li>如果结果存在争论，Alpha 将在脚注中提供说明</li>
<li>目前 Alpha 仅提供英文版</li>
<li>资金：Alpha 将在侧边栏中显示广告，并与其他公司合作，其中包括其他搜索引擎</li>
<li>Wolfram 将发布  FF 和 IE 工具栏，以及 <a href="http://www.ieaddons.com/en/accelerators/">IE8 accelerator</a></li>
<li>Alpha 还将显示来自传统搜索引擎的搜索结果（Google、Live、Yahoo），并提供相关的维基百科链接</li>
</ul>
</blockquote>
<p><strong>它是 Google 终结者？</strong></p>
<p>不是！Wolfram|Alpha 将会一个令人惊奇的产品，但它与 Google 和其他搜索引擎很不同。事实上，将其称为搜索引擎都是一个误解，Wolfram 更乐意“computational knowledge engine”这个名称。如果你想知道去纽约要看哪些景点，据我们了解，对此 Alpha 并不是一个有用的工具。</p>
<p>如果不是查看那些基本的百科式信息，用户可以求助于 Alpha，它会直接给出问题的答案，并提供一系列的图片和相关信息。</p>
<p>在精心准备的演示中，每个产品都会看起来很不错。5 月份推出的正式版 Alpha 将如何面对用户真刀实枪的拷问，让我们拭目以待…</p>
<p><strong>2.</strong><br />
<strong>Alpha首测结果：喜忧参半</strong></p>
<div class="entry-meta"><a title="作者: 译言" href="http://blog.it.sohu.com/readwriteweb/archives/author/yeeyan/"></a></div>
<div class="entry-body">
<p style="font-size: 10.5pt;"><a href="http://blog.it.sohu.com/readwriteweb/files/2009/05/wolfram_alpha_logo_may09.png"><img class="alignleft size-medium wp-image-2065" src="http://blog.it.sohu.com/readwriteweb/files/2009/05/wolfram_alpha_logo_may09.png" alt="" width="150" height="29" /></a>Wolfram Alpha这款被视为“谷歌杀手”的搜索引擎将会在5月18日正式发布（<a title="link" href="http://blog.wolframalpha.com/2009/05/08/so-much-for-a-quiet-launch/">link</a>）。但是我们今天可以提前访问这项服务，因此也就有机会测试一下这款搜索引擎的表现</p>
<p style="font-size: 10.5pt;">我们就不罗嗦了：Wolfram Alpha不是针对主流互联网用户的，对于这类人群而言，谷歌就已经够用了。当然，将Alpha与谷歌做比较有些不妥，但是多数用户还是会把它当成谷歌来 对待，然后这其中的多数可能会极其失望的离开。然而，从目前来看，Alpha会成为学生，工程师和学者们手中的得力工具。任何需要快速获得数据并知道相应 解释的人都会将Alpha视为好的帮手。学会如何最佳的使用Alpha需要花点时间，它还有些瑕疵，但是总来说，它给我们的印象非常深刻，不过，偶尔我们 也有些失望。</p>
<p style="font-size: 10.5pt;">正如我们所设想的那样，Alpha表现出色的领域是数学，工程，化学，物理以及生命科学。但是当涉及人文科学时，Alpha给的结果就不那么有意思了。当你输入作者名称时，你会得到一个基本的履历资料，而非作者的书目列表。</p>
<p style="font-size: 10.5pt;">用户需要记住的是Alpha只会给你数据，但是不会提供数据背后的意义。用户需要自己解读数据。</p>
<p><strong>试用结果：Alpha某些领域非常出色——其他一些领域难有作为。</strong></p>
<p><a href="http://blog.it.sohu.com/readwriteweb/files/2009/05/alpha_span_germany_gdp.png"><img class="alignright size-medium wp-image-2066" src="http://blog.it.sohu.com/readwriteweb/files/2009/05/alpha_span_germany_gdp-254x300.png" alt="" width="254" height="300" /></a></p>
<p style="font-size: 10.5pt;">有时，Alpha的数据集并不是很规整。比如，你 可以得到国家的失业人数数据，但是如果你想得到特定城市的数据，Alpha就无能为力。Alpha也可以回答一些杂七杂八的问题，像“B-29超级空中堡 垒轰炸机的翼展是多少”，美国有多少药剂师？（以及他们的平均薪水是多少？），以及《星际迷航2：可汗的愤怒》的票房收入是多少？（系统会自动将 7，891万美元转换成日元，英镑和欧元。）</p>
<p style="font-size: 10.5pt;">它也可以做一些非常出色的计算（虽然我们做的一些 复杂查询出现超时情况），像画谢尔宾斯基三角形（Sierpinski gasket）（译者注：一个分形），以及告诉25岁时，人锻炼时的安全心率是多少。但是虽然它知道1984年的德国总统是谁，但是它却拒绝告诉我们那年 的德国总理是谁。而且有关第一， 二次世界大战的信息都是一些基本的数据，不过与此同时，Alpha也会告诉我们今天德国每一分钟期间有多少人死去(1.698个)，并将其与当前的出生率 做比较。Alpha也可以给你提供营养方面的数据，然而你没办法计算得到不同体重下的数据。</p>
<p><strong>一些幽默诙谐的地方</strong></p>
<p style="font-size: 10.5pt;">有时，你会在结果中看到一些幽默诙谐的闪光点。比 如，当我们搜索”5千克“时，Alpha会提供你一个基本的单位转换关系。但是它也会在结果里告诉你5千克大约等于两本《新新科学》（ A New Kind of Science）（此书的作者是： Stephen Wolfram）的重量。</p>
<p><strong>局限性</strong></p>
<p style="font-size: 10.5pt;">毫无疑问，Alpha数据集存在空白的地方。而这 些空白的地方都是属于非技术领域，从许多方面来看，这是可以理解的，因为让Wolfram Alpha这样的系统理解此类信息非常难（不过Alpha对字谜非常在行），每个结果页面的Alpha广告所连接的都是维基百科上的相关文章。</p>
<p><strong>缺乏互动性</strong></p>
<p style="font-size: 10.5pt;">Alpha也缺乏互动性，这点很快让人有些沮丧。 Alpha上的所有图片都是静态图像，你无法放大或缩小，或者当你搜索人物的生平资料，结果中没有任何链接，因此你无法通过简单点击这个人的出生地链接以 获得更多信息。这意味着深入挖掘某个主题下的信息可能很难，因为你必须持续不断地进行新的查询。</p>
<p><strong>有关大写的问题</strong></p>
<p><a href="http://blog.it.sohu.com/readwriteweb/files/2009/05/khan_wolfram_small.png"><img class="alignright size-medium wp-image-2068" src="http://blog.it.sohu.com/readwriteweb/files/2009/05/khan_wolfram_small-248x300.png" alt="" width="248" height="300" /></a></p>
<p style="font-size: 10.5pt;">Alpha对查询词的要求有些过于苛刻。当你输入 ”pdx“时，aplha不知道如何处理，但是你将它大写后，它会返回Pursuit Dynamics公司的信息（公司的商标是pdx），以及一个有关波兰国际机场的信息选项（而这是我们所要查找的东西）。而谷歌则是完全忽视掉字母的大 写，Alpha对此是做区分的。</p>
<p style="font-size: 10.5pt;">Alpha也会为新用户提供许多搜索实例。这些实例对于你如何规范的查询是非常有帮助的，而这种规范则可以帮助你从Alpha上获得更多有用信息。</p>
<p><strong>开发者和Alpha</strong></p>
<p style="font-size: 10.5pt;">Alpha将会为第三方开发者提供丰富的API。 我们对于开发文档只做了一个快速的浏览，但是从我们看到的内容来讲，开发者可以完全访问Wolfram Alpha的数据集。但是对于开发者们如何将这一数据源与其他Alpha并不擅长领域里的数据源混搭使用，想必我们会看到一些有意思的创新。</p>
<p><strong>这一款不错的工具——但并不适合所有人</strong></p>
<p style="font-size: 10.5pt;">最后，Wolfram Alpha是一款工具，你需要花些时间来学习，但是它也可以成为一款非常强大的工具。许多媒体将Alpha与谷歌做比较，我们认为这是一个毫无意义的比 较。Alpha并不想成为谷歌杀手，而且以它目前的形式来看，它是无法从谷歌手中抢去很多市场份额的。正如我们一周前在有关Alpha的报道中所说的那 样，Alpha会从维基百科手中抢走一些用户，因为它可以让用户快速便捷的获得各种数据。</p>
<p style="font-size: 10.5pt;">但是目前Alpha最大的问题就是对搜索查询词的解释执行，通常查询词的一个小小改动就会导致无法找到结果或者十分精确的找到你想找的内容。</p>
<p style="font-size: 10.5pt;">我们也希望Wolfram能找到一个把其他更多数据和搜索结果连接起来的方法。当你在搜索结果中找到一些感兴趣的内容，但是却不得不手动输入进行一次查询时，我们感觉相当的失望。Alpha在结果页面只要加一个简单的链接就可以解决的。</p>
<p><strong>对于工程师而言非常棒——但是主流群体可能不会这么觉得</strong></p>
<p style="font-size: 10.5pt;">到目前为止，我们还是觉得Alpha仍然是一个小众的参与者。对于一小部分潜在用户，它是一个价值极高的工具。不过，希望随着时间的推移，开发团队会添加更多更好的数据集，这样Alpha对于主流群体也会变得更加实用。</p>
<p style="font-size: 10.5pt;"><strong>注意</strong>：读者如果想查看更多截图，可以前去这个页面（<a href="http://www.readwriteweb.com/archives/see_wolfram_alpha_in_action_-_video_and_screenshots.php" target="_self">link</a>）</p>
<p style="font-size: 10.5pt;">
<p style="font-size: 10.5pt;">（译者：Moon.Wong）</p>
</div>
<p>（译者：     <a href="http://www.yeeyan.com/space/show/ITAQ">挨踢狂人</a>）</div>
]]></content:encoded>
			<wfw:commentRss>http://clfour.com/2009/05/wolfram-alpha-computational-knowledge-engine/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>掀起kumo的盖头来</title>
		<link>http://clfour.com/2009/03/a-sneak-peek-at-kumo/</link>
		<comments>http://clfour.com/2009/03/a-sneak-peek-at-kumo/#comments</comments>
		<pubDate>Tue, 17 Mar 2009 13:11:44 +0000</pubDate>
		<dc:creator>Fred</dc:creator>
				<category><![CDATA[折腾]]></category>
		<category><![CDATA[资讯]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[kumo]]></category>
		<category><![CDATA[mine]]></category>
		<category><![CDATA[ms]]></category>
		<category><![CDATA[search]]></category>
		<category><![CDATA[semantic search]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=591</guid>
		<description><![CDATA[3月初，微软语义搜索引擎kumo在公司内部测试并希望全体员工积极反馈意见。微软搜索部门主管在给员工的信件中如是说： From: Satya Nadella Sent: Monday, March 02, 2009 4:18 PM To: Microsoft–All Employees (QBDG) Subject: Announcement: Internal Search Test Experience The Search team needs you. We’ve been working hard [...]]]></description>
			<content:encoded><![CDATA[<p><a title="kumo screenshot" href="http://2.bp.blogspot.com/_FuHc5SqNMxA/Sb-gnnZCwzI/AAAAAAAAAMM/ZNpFoVEAemY/s1600-h/kumo.jpg" target="_blank"><img id="BLOGGER_PHOTO_ID_5314142687769838386" style="display: block; margin: 0px auto 10px; text-align: center; cursor: hand; width: 400px; height: 225px;" src="http://2.bp.blogspot.com/_FuHc5SqNMxA/Sb-gnnZCwzI/AAAAAAAAAMM/ZNpFoVEAemY/s400/kumo.jpg" border="0" alt="" /></a><br />
3月初，微软语义搜索引擎kumo在公司内部测试并希望全体员工积极反馈意见。微软搜索部门主管在给员工的信件中如是说：</p>
<p><span id="more-591"></span></p>
<blockquote><p>From: Satya Nadella</p>
<p>Sent: Monday, March 02, 2009 4:18 PM<br />
To: Microsoft–All Employees (QBDG)<br />
Subject: Announcement: Internal Search Test Experience</p>
<p>The Search team needs you. We’ve been working hard to improve our search service and want to share the progress we are making with you. We are launching a new test program called kumo.com for employees to try and provide feedback. Kumo.com exists only inside the corporate network, and in order to get enough feedback we will be redirecting internal live.com traffic over to the test site in the coming days. Kumo is the codename we have chosen for the internal test.</p>
<p>In spite of the progress made by search engines, 40% of queries go unanswered; half of queries are about searchers returning to previous tasks; and 46% of search sessions are longer than 20 minutes. These and many other learnings suggest that customers often don’t find what they need from search today.</p>
<p>We believe we can provide a better and more useful search experience that helps you not just search but accomplish tasks. During the test, features will vary by country, but you’ll see results organized in a way that saves you more time. An explorer pane on the left side of results pages will give you access to tools that help you with your tasks. Other features like single session history and hover preview help accomplish more in search sessions.</p>
<p>Your Next Search…</p>
<p>To get started, visit kumo.com or click one of the samples below to see how it’s possible to find the right results more easily:</p>
<p>· Audi S8<br />
· Taylor Swift<br />
. Bose Lifestyle 48</p>
<p>You can also set your search defaults to test site using the instructions here.</p>
<p>Your Feedback is Critical</p>
<p>As employees, you are some of our most informed users and our toughest critics, and we highly value your input and feedback to help us build a better service. You have been an important voice in our efforts, and the feedback you’ve sent us since the company meeting has been amazing.</p>
<p>When you visit kumo.com, at the bottom right corner of the each page you’ll see a feedback badge. We ask that each time you use the test site, click the feedback badge and take a moment to answer four quick and simple questions. Feel free to reach out to give us extra feedback directly on our blog and by mailing sfeed. For answers to common questions make sure to see our FAQ.</p>
<p>We are committed to rapid innovation and improvement. Please give the test site a try, rate the results and let us know what you think.</p>
<p>Satya</p></blockquote>
<p><a title="点击看大图" href="http://3.bp.blogspot.com/_FuHc5SqNMxA/Sb-g76d6XkI/AAAAAAAAAMk/ix-YsEnIi6I/s1600-h/kumo1.gif" target="_blank"><img id="BLOGGER_PHOTO_ID_5314143036487917122" style="cursor: hand; width: 86px; height: 200px;" src="http://3.bp.blogspot.com/_FuHc5SqNMxA/Sb-g76d6XkI/AAAAAAAAAMk/ix-YsEnIi6I/s200/kumo1.gif" border="0" alt="" /></a><a title="点击看大图" href="http://4.bp.blogspot.com/_FuHc5SqNMxA/Sb-g7t9InCI/AAAAAAAAAMc/lqKr4n6oC94/s1600-h/kumo2.gif" target="_blank"><img id="BLOGGER_PHOTO_ID_5314143033129212962" style="cursor: hand; width: 72px; height: 200px;" src="http://4.bp.blogspot.com/_FuHc5SqNMxA/Sb-g7t9InCI/AAAAAAAAAMc/lqKr4n6oC94/s200/kumo2.gif" border="0" alt="" /></a><a title="点击看大图" href="http://3.bp.blogspot.com/_FuHc5SqNMxA/Sb-g7W2ofQI/AAAAAAAAAMU/BuLTMYiX2ZQ/s1600-h/kumo3.gif" target="_blank"><img id="BLOGGER_PHOTO_ID_5314143026927926530" style="cursor: hand; width: 80px; height: 200px;" src="http://3.bp.blogspot.com/_FuHc5SqNMxA/Sb-g7W2ofQI/AAAAAAAAAMU/BuLTMYiX2ZQ/s200/kumo3.gif" border="0" alt="" /></a></p>
<p>在几张截图中，我们可以看到语义检索的特征非常明显，根据关键字做结果分类和查询导航，左下角的your history不知道会不会是实时的兴趣分析之用，期待kumo的正式推出，拭目以待吧。<br />
据分析说kumo会有基于图像相似度的图片检索出现，不知真伪了。</p>
<p>来源 <a href="http://kara.allthingsd.com/20090302/a-sneak-peek-look-at-microsofts-new-kumo/" target="_blank">1</a> , <a href="http://www.technewsworld.com/story/Will-Microsofts-Kumo-Bring-New-Visual-Dimension-to-Search-66366.html?wlc=1237288154" target="_blank">2</a></p>
]]></content:encoded>
			<wfw:commentRss>http://clfour.com/2009/03/a-sneak-peek-at-kumo/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>[zz] wikiCFP</title>
		<link>http://clfour.com/2009/02/zz-wikicfp/</link>
		<comments>http://clfour.com/2009/02/zz-wikicfp/#comments</comments>
		<pubDate>Mon, 23 Feb 2009 14:27:30 +0000</pubDate>
		<dc:creator>Fred</dc:creator>
				<category><![CDATA[干活]]></category>
		<category><![CDATA[资讯]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[search]]></category>
		<category><![CDATA[Study]]></category>
		<category><![CDATA[ZZ]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=556</guid>
		<description><![CDATA[在ICTExtr9的专栏上看到的，这个wiki在google alert里经常出现，这次又发现有人介绍，而且是做检索相关研究的，就直接copy过来了。在此感谢原搜集者，希望对大家有用！ 1. 推荐一个查找近期会议的网站-wikicfp Wikicfp http://www.wikicfp.com/ 有很多人把各种会议的call for paper发到这个网站上。 可以管理自己关注的会议列表并按照多种方式排序，比如，按deadline排序 2. 相关会议列表 在wikicfp上维护了一个信息抽取相关会议的列表： http://www.wikicfp.com/cfp/servlet/event.showlist?lownerid=2907&#60;ype=w&#038;page=1&#038;sortby=0 还有一些更广泛的，与web mining相关的会议： AAAI: American Association for Artificial Intelligence IJCAI: International Joint Conference on Artificial Intelligence ICML: International [...]]]></description>
			<content:encoded><![CDATA[<p>在<a href="http://blog.csdn.net/ictextr9" target="_blank">ICTExtr9</a>的专栏上看到的，这个wiki在google alert里经常出现，这次又发现有人介绍，而且是做检索相关研究的，就直接copy过来了。在此感谢<a href="http://blog.csdn.net/ictextr9" target="_blank">原搜集者</a>，希望对大家有用！</p>
<p>1. <a href="http://blog.csdn.net/ICTExtr9/archive/2009/01/08/3732544.aspx"><span style="color: #336699;">推荐一个查找近期会议的网站-wikicfp</span></a><br />
Wikicfp</p>
<p>http://www.wikicfp.com/</p>
<p>有很多人把各种会议的call for paper发到这个网站上。<br />
可以管理自己关注的会议列表并按照多种方式排序，比如，按deadline排序</p>
<p>2. <a href="http://blog.csdn.net/ICTExtr9/archive/2009/01/06/3721781.aspx"><span style="color: #336699;">相关会议列表</span></a><br />
在wikicfp上维护了一个信息抽取相关会议的列表：</p>
<p>http://www.wikicfp.com/cfp/servlet/event.showlist?lownerid=2907&lt;ype=w&#038;page=1&#038;sortby=0</p>
<p><span id="more-556"></span>还有一些更广泛的，与web mining相关的会议：<br />
AAAI: American Association for Artificial Intelligence<br />
IJCAI: International Joint Conference on Artificial Intelligence<br />
ICML: International Conference on Machine Learning<br />
SIGMOD: ACM SIGMOD Conf on Management of Data<br />
VLDB: The ACM International Conference on Very Large Data Bases<br />
WWW: The ACM International World Wide Web Conference<br />
SIGIR: The ACM Conference on Research and Development in Information Retrieval<br />
SIGKDD: The ACM Conference on Knowledge Discovery in Databases and Data Mining<br />
ICDE: IEEE International Conference on Data Engineering<br />
PODS: ACM Symposium on Principles of Database Systems<br />
ACL: The Association for Computational Linguistics<br />
CIKM: ACM International Conference on Information and Knowledge Management<br />
ICDM: IEEE International Conference on Data Mining<br />
PKDD: Conference on Principles and Practice of Knowledge Discovery in Databases<br />
CPM: Combinatorial Pattern Matching Symposium<br />
SDM: SIAM International Conference on Data Mining<br />
EMNLP:Conference on Empirical Methods in Natural Language Processing<br />
IEEE/WIC/ACM International Conference on Web Intelligence<br />
ICPR: International Conference on Pattern Recognition<br />
SPIRE: The IEEE International Symposium on String Processing and Information Retrieval<br />
ECML:European Conference on Machine Learning<br />
APWEB: Asia Pacific Web Conference<br />
Intelligence and Security Informatics<br />
ECIR:European Conference on Information Retrieval<br />
SAC: ACM/SIGAPP Symposium on Applied Computing<br />
PAKDD: Pacific-Asia Conference on Knowledge Discovery and Data Mining<br />
IJCNLP: International Joint Conference on Natural Language Processing<br />
AIRS:Asia Information Retrieval Symposium</p>
]]></content:encoded>
			<wfw:commentRss>http://clfour.com/2009/02/zz-wikicfp/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[ZZ]哈工大中文信息处理人物谱</title>
		<link>http://clfour.com/2009/01/zz-hit-irers/</link>
		<comments>http://clfour.com/2009/01/zz-hit-irers/#comments</comments>
		<pubDate>Tue, 13 Jan 2009 03:11:42 +0000</pubDate>
		<dc:creator>Fred</dc:creator>
				<category><![CDATA[干活]]></category>
		<category><![CDATA[资讯]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[mine]]></category>
		<category><![CDATA[search]]></category>
		<category><![CDATA[Study]]></category>
		<category><![CDATA[ZZ]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=520</guid>
		<description><![CDATA[zz from here，根据第一位前辈的年龄，这篇应该是06年的数据 了，以备参考 王开铸教授，1932年出生，74岁，80年代从事俄汉机器翻译、固定段落理解与问答系统的研究，90年代开始进行自动文摘、自动校对的研究。曾任哈工大计算机系系主任8年，已退休多年。 李生教授，1943年出生，63岁，原哈工大党委书记，目前哈工大中文信息处理方向的带头人，现任语言语音教育部微软重点实验室主任，重点实验室包括智能技术与自然语言处理、机器智能与翻译、信息检索和语音处理四个研究室。中国中文信息学会常务理事，大陆最早的汉英机器翻译系统研制者，主要从事汉英双向机器翻译的研究，近年来同时开展信息检索方面的研究，培养了大批博士、硕士研究生。 王晓龙教授，1955年出生，51岁，77年上大学。语言语音教育部微软重点实验室副主任，智能技术与自然语言处理研究室主任，中国中文信息学会理事。以语句级智能输入法（微软拼音）发明人著称，目前把智能输入法应用于手机输入，同时研究智能搜索引擎，主持国际自然科学基金重点项目“问答式信息检索检索技术理论与方法”。多年来培养了大批博士硕士研究生。89年博士毕业，导师为王开铸教授。 赵铁军教授，1962年出生，44岁，语言语音教育部微软重点实验室副主任，机器智能与翻译研究室主任，主要从事机器翻译、跨语言检索以及文景转换的研究。导师为李生教授。 刘挺教授，1972年出生，34岁，语言语音教育部微软重点实验室副主任，信息检索研究室主任，主要从事信息检索、信息抽取和语言分析方面的研究。1998年博士毕业，导师为王开铸教授。 关毅副教授，博士，智能技术与自然语言处理实验室，导师王晓龙教授，研究方向：语言理解、问答系统。 徐志明副教授，博士，智能技术与自然语言处理实验室，导师王晓龙教授，研究方向：企业搜索。 刘秉权副教授，博士，智能技术与自然语言处理实验室，导师王晓龙教授，研究方向：智能手机输入法、移动搜索。 张宇副教授，博士，信息检索研究室，研究生期间的研究课题为软件容错。目前的研究方向：文本检索与过滤。 秦兵副教授，博士，信息检索研究室，导师李生，研究方向：多文档文摘、信息抽取、文本分类聚类。 杨沐昀副教授，博士，机器智能与翻译研究室，导师李生，研究方向：基于实例的机器翻译，汉英机器翻译。 林磊，博士，智能技术与自然语言处理实验室，导师王晓龙教授，研究方向：生物信息学。 李晗静，讲师，在职博士生，机器智能与翻译研究室，导师李生、赵铁军，研究方向：文景转换。 刘远超，讲师，在职博士生，智能技术与自然语言处理实验室，导师王晓龙教授，研究方向：自动文摘等。 车万翔，助教，在职博士生，信息检索研究室，导师李生、刘挺，研究方向：浅层语义分析。微软学者奖学金获得者。 王轩，博士，副教授，哈工大深圳研究生院计算机学部主任，导师王晓龙，研究方向：手语识别等。 陈清才，博士，哈工大深圳研究生院，导师王晓龙，研究方向：搜索引擎。 &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211; &#60;校友系列&#62; 周明，微软亚洲研究院自然语言组组长，导师李生，研究方向：自然语言处理、机器翻译 张民，新加坡I2R研究所，导师李生，研究方向：信息抽取 王海峰，东芝中国研发中心，99年博士毕业，副所长，导师李生，研究方向：机器翻译 于浩，富士通中国研发中心部门负责人，98年博士毕业，博士研究方向为电气工程，博士后导师为李生教授。 荀恩东，北京语言大学，99年毕业，导师李生，研究方向：汉语辅助教学等 付国宏，香港大学荣誉助理教授，导师王晓龙，研究方向：自然语言处理 吕雅娟，中科院计算所，导师李生，研究方向：机器翻译、句法分析 [...]]]></description>
			<content:encoded><![CDATA[<p>zz from <a href="http://zyj4538.blog.163.com/blog/static/27657532200811250594155" target="_blank">here</a>，根据第一位前辈的年龄，这篇应该是06年的数据 了，以备参考</p>
<p>王开铸教授，1932年出生，74岁，80年代从事俄汉机器翻译、固定段落理解与问答系统的研究，90年代开始进行自动文摘、自动校对的研究。曾任哈工大计算机系系主任8年，已退休多年。</p>
<p><span id="more-520"></span></p>
<p>李生教授，1943年出生，63岁，原哈工大党委书记，目前哈工大中文信息处理方向的带头人，现任语言语音教育部微软重点实验室主任，重点实验室包括智能技术与自然语言处理、机器智能与翻译、信息检索和语音处理四个研究室。中国中文信息学会常务理事，大陆最早的汉英机器翻译系统研制者，主要从事汉英双向机器翻译的研究，近年来同时开展信息检索方面的研究，培养了大批博士、硕士研究生。</p>
<p>王晓龙教授，1955年出生，51岁，77年上大学。语言语音教育部微软重点实验室副主任，智能技术与自然语言处理研究室主任，中国中文信息学会理事。以语句级智能输入法（微软拼音）发明人著称，目前把智能输入法应用于手机输入，同时研究智能搜索引擎，主持国际自然科学基金重点项目“问答式信息检索检索技术理论与方法”。多年来培养了大批博士硕士研究生。89年博士毕业，导师为王开铸教授。</p>
<p>赵铁军教授，1962年出生，44岁，语言语音教育部微软重点实验室副主任，机器智能与翻译研究室主任，主要从事机器翻译、跨语言检索以及文景转换的研究。导师为李生教授。</p>
<p>刘挺教授，1972年出生，34岁，语言语音教育部微软重点实验室副主任，信息检索研究室主任，主要从事信息检索、信息抽取和语言分析方面的研究。1998年博士毕业，导师为王开铸教授。</p>
<p>关毅副教授，博士，智能技术与自然语言处理实验室，导师王晓龙教授，研究方向：语言理解、问答系统。</p>
<p>徐志明副教授，博士，智能技术与自然语言处理实验室，导师王晓龙教授，研究方向：企业搜索。</p>
<p>刘秉权副教授，博士，智能技术与自然语言处理实验室，导师王晓龙教授，研究方向：智能手机输入法、移动搜索。</p>
<p>张宇副教授，博士，信息检索研究室，研究生期间的研究课题为软件容错。目前的研究方向：文本检索与过滤。</p>
<p>秦兵副教授，博士，信息检索研究室，导师李生，研究方向：多文档文摘、信息抽取、文本分类聚类。</p>
<p>杨沐昀副教授，博士，机器智能与翻译研究室，导师李生，研究方向：基于实例的机器翻译，汉英机器翻译。</p>
<p>林磊，博士，智能技术与自然语言处理实验室，导师王晓龙教授，研究方向：生物信息学。</p>
<p>李晗静，讲师，在职博士生，机器智能与翻译研究室，导师李生、赵铁军，研究方向：文景转换。</p>
<p>刘远超，讲师，在职博士生，智能技术与自然语言处理实验室，导师王晓龙教授，研究方向：自动文摘等。</p>
<p>车万翔，助教，在职博士生，信息检索研究室，导师李生、刘挺，研究方向：浅层语义分析。微软学者奖学金获得者。</p>
<p>王轩，博士，副教授，哈工大深圳研究生院计算机学部主任，导师王晓龙，研究方向：手语识别等。</p>
<p>陈清才，博士，哈工大深圳研究生院，导师王晓龙，研究方向：搜索引擎。</p>
<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211;</p>
<p>&lt;校友系列&gt;</p>
<p>周明，微软亚洲研究院自然语言组组长，导师李生，研究方向：自然语言处理、机器翻译</p>
<p>张民，新加坡I2R研究所，导师李生，研究方向：信息抽取</p>
<p>王海峰，东芝中国研发中心，99年博士毕业，副所长，导师李生，研究方向：机器翻译</p>
<p>于浩，富士通中国研发中心部门负责人，98年博士毕业，博士研究方向为电气工程，博士后导师为李生教授。</p>
<p>荀恩东，北京语言大学，99年毕业，导师李生，研究方向：汉语辅助教学等</p>
<p>付国宏，香港大学荣誉助理教授，导师王晓龙，研究方向：自然语言处理</p>
<p>吕雅娟，中科院计算所，导师李生，研究方向：机器翻译、句法分析</p>
<p>孟遥，富士通中国研发中心，导师李生，研究方向：句法分析</p>
<p>姚建民，苏州大学计算机系，导师李生，研究方向：机器翻译评价</p>
<p>方高林，富士通中国研发中心，硕士导师李生、赵铁军</p>
<p>郑德权副教授，博士，2005年毕业，哈尔滨商业大学，导师李生，研究方向：跨语言信息检索</p>
<p>卢志茂副教授，在职博士生，哈尔滨工程大学，导师李生、刘挺，研究方向：词义消歧</p>
<p>张刚，中科院计算所在职博士生，硕士导师李生、刘挺，博士导师李国杰院士，研究方向：分布式搜索引擎</p>
<p>还有很多毕业生也活跃在中文信息处理领域，孰不一一列举。</p>
<p>&#8212;&#8212;&#8212;&#8212;&#8211;</p>
<p>&lt;学生系列&gt;</p>
<p>曹海龙，机器翻译与智能研究室，导师李生，研究方向：汉语句法分析</p>
<p>齐浩亮，机器翻译与智能研究室，导师李生，研究方向：检索模型</p>
<p>王强，智能技术与自然语言处理研究室，导师王晓龙，研究方向：文本分类，两次863评测第一名。</p>
<p>马金山，信息检索研究室，2003级博士生，导师李生、刘挺、研究方向：句法分析</p>
<p>孙广路，智能技术与自然语言处理研究室，导师王晓龙，研究方向：组块分析</p>
<p>孙承杰，智能技术与自然语言处理研究室，导师王晓龙，研究方向：信息抽取</p>
<p>肖镜辉，智能技术与自然语言处理研究室，导师王晓龙，研究方向：语言模型</p>
<p>董启文，智能技术与自然语言处理研究室，导师王晓龙，研究方向：生物信息学，在《中国科学》，Bioinformatics等发表论文</p>
<p>张志昌，信息检索研究室，2004级博士生，导师李生、刘挺、研究方向：问答系统</p>
<p>郎君，信息检索研究室，2004级硕博连读生，导师李生、刘挺，研究方向：语言技术平台、指代消解</p>
<p>赵世奇，信息检索研究室，2004级硕博连读生，导师李生、刘挺，研究方向：复述技术</p>
<p>仅列举几名最活跃的学生，目前哈工大中文信息处理方向的博士生、硕士生合计130以上。</p>
<p>&#8212;&#8212;&#8212;&#8212;-</p>
<p>&lt;语音、文字系列&gt;</p>
<p>舒文豪教授，中国汉字识别的开创者之一，已退休。</p>
<p>王承发教授，博导，原哈工大计算机学院副院长，研究方向：语音识别，已故。</p>
<p>徐近沛教授，研究方向：语音识别。</p>
<p>韩纪庆教授，博导，哈工大计算机学院党委书记、常务副院长，智能人机接口研究中心副主任，语音处理研究室主任，研究方向：数字媒体、语音识别与合成。博士导师徐近沛。</p>
<p>唐降龙教授，博导，哈工大模式识别研究中心主任，研究方向：汉字识别、指纹识别等，博士导师舒文豪。</p>
<p>李海峰教授，博导，哈工大软件学院副院长，语音处理研究室，研究方向：模式识别。在法国巴黎六大获得博士学位。</p>
<p>黄剑华副教授，博士，哈工大模式识别研究中心，研究方向：视频汉字识别，博士导师舒文豪。</p>
<p>刘家峰副教授，博士，哈工大模式识别研究中心，研究方向：汉字识别、模式识别，博士导师舒文豪。</p>
<p>郑铁然，讲师，在职博士生，语音处理研究室，研究方向：音频/语音检索，博士导师韩纪庆。</p>
]]></content:encoded>
			<wfw:commentRss>http://clfour.com/2009/01/zz-hit-irers/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>google, semantics</title>
		<link>http://clfour.com/2009/01/google-semantics/</link>
		<comments>http://clfour.com/2009/01/google-semantics/#comments</comments>
		<pubDate>Sun, 11 Jan 2009 02:06:23 +0000</pubDate>
		<dc:creator>Fred</dc:creator>
				<category><![CDATA[资讯]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[IT]]></category>
		<category><![CDATA[search]]></category>
		<category><![CDATA[semantic search]]></category>

		<guid isPermaLink="false">http://www.clfour.com/?p=508</guid>
		<description><![CDATA[Did Google Just Expose Semantic Data in Search Results? ReedWriteWeb的Marshall Kirkpatrick，6号写了一篇这样的文章，立刻收到了极大的关注。他通过对google search的Q&#38;A查询的反馈结果，猜想google可能采用了查询的结构化处理。这与以往google采用的PageRank以及流行度的分析等方法哟明显的不同，现在Yahoo，PowerSet，ASK，Hikia的语义检索大张旗鼓的进行，google的这一点的尝试和修改，无论是对竞争对手还是普通用户都是一个信号。因此，在这篇文章的提示下，有了许多文章。Yes, Google Is Doing Semantic Search ，里说google已经加入了语义搜索的聚会，并表示google的这项技术早在05年就开始了，有一篇官方的blog为佐。arnold在读了这篇文章后也认为这是一个有价值的无责任实验，一个重要的信号。 当然，技术并不是人而且还不是成熟的，它还是要基于许多无法考证的资料来推理总结以试图给予用户确切答案。Daniel Nations发现一个可笑的错误，根据google的结果，基督是出生在1963年的。。。我在尝试相同的查询时，已经没有了答案，而且那片文章中下午还存在图片晚上也不见了，难道也被rivercrab掉了？ ps：上图是我用google.com查询who is the president of the USA?的结果。查vice president以及who will be [...]]]></description>
			<content:encoded><![CDATA[<p><img id="BLOGGER_PHOTO_ID_5289727156455360482" style="width: 320px; cursor: hand; height: 210px;" src="http://3.bp.blogspot.com/_FuHc5SqNMxA/SWji0pdCR-I/AAAAAAAAAJU/619UrmQF1As/s320/googlesearch080111.jpg" border="0" alt="" /></p>
<p><a href="http://www.readwriteweb.com/archives/google_semantic_data.php" target="_blank">Did Google Just Expose Semantic Data in Search Results?</a> ReedWriteWeb的Marshall Kirkpatrick，6号写了一篇这样的文章，立刻收到了极大的关注。他通过对google search的Q&amp;A查询的反馈结果，猜想google可能采用了查询的结构化处理。这与以往google采用的PageRank以及流行度的分析等方法哟明显的不同，现在Yahoo，PowerSet，ASK，Hikia的语义检索大张旗鼓的进行，google的这一点的尝试和修改，无论是对竞争对手还是普通用户都是一个信号。因此，在这篇文章的提示下，有了许多文章。<a href="http://googlewatch.eweek.com/content/google_search/yes_google_is_doing_semantic_search.html" target="_blank">Yes, Google Is Doing Semantic Search</a> ，里说google已经加入了语义搜索的聚会，并表示google的这项技术早在05年就开始了，有一篇<a href="http://googleblog.blogspot.com/2005/04/just-facts-fast.html" target="_blank">官方的blog</a>为佐。<a href="http://arnoldit.com/wordpress/2009/01/08/google-semantics-surfacing/" target="_blank">arnold</a>在读了这篇文章后也认为这是一个有价值的无责任实验，一个重要的信号。</p>
<p>当然，技术并不是人而且还不是成熟的，它还是要基于许多无法考证的资料来推理总结以试图给予用户确切答案。<a href="http://webtrends.about.com/b/2009/01/07/google-claims-jesus-born-in-1963.htm" target="_blank">Daniel Nations</a>发现一个可笑的错误，根据google的结果，基督是出生在1963年的。。。我在尝试相同的查询时，已经没有了答案，而且那片文章中下午还存在图片晚上也不见了，难道也被rivercrab掉了？</p>
<p>ps：上图是我用google.com查询who is the president of the USA?的结果。查vice president以及who will be the president of the USA?都不会有结果提示了。。。但是把the USA改成China，主席和副主席都能直接给答案了 呵呵 :rolleyes:</p>
]]></content:encoded>
			<wfw:commentRss>http://clfour.com/2009/01/google-semantics/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

