神七,ubuntu

神七:最近一直在ubuntu,神七的事情都是周围的人告诉的,连奶奶打电话都要问问看直播了没有。这不,今天就补上了,确实令人激动阿,前前后后的工作,只有出舱的几分钟,却意同非凡。老百姓就是看不清楚有啥意义,也高兴,晚上9点多出舱的,结果就听到外面放鞭炮。今天去食堂,大家一个个仰着脸,那架势不亚于刚结束的奥运会。太空的空旷,似乎和科幻并不两样,浩渺,这个词太贴切了。太空,真的里我们越来越进了,我甚至已经在幻想,maybe one day。。。,到时候再也不用仰望星空了,改仰望地球~~从太空中看地球,真的很漂亮,蓝色的星球,充满了明亮,而且太阳被这样起来一刹那映射的余辉,恰似夕阳西下。没有的浓雾包围,看起来真爽阿。
ps:这几天杭州的秋终于来了,真的是10月的好天气,蓝天白云,秋高气爽,一扫前几天的湿热,似乎就是一夜的时间,本来还特地那相机想摆弄,结果也没动弹。

ubuntu:这两张图片都是ubuntu的桌面,不知道是什么时候拍的了,刚好是太空主题的。ubuntu对我来说也是一篇新天地了,之前装过linux,也试过ubuntu,可没有目的性。现在,要用了,不得不一点一点补,开始羡慕起noodle来了。发现之前学的很多东西都不扎实阿,其实都是相同的。vim操作也忘的只升几个了。。。折腾了将近3天,每天弄到2点多,终于把ubuntu+java+tomcat+eclipse+lucene+nutch给配置起来了。虽然当前验证的还不全面,可能还会有什么问题。。。等有时间了把具体的配置过程写写,也给自己一个参照。还需努力阿,加油,hoho~
ps:此帖来自ubuntu,嘿嘿。现在用用还是有点小爽的,比win干净很多。

明天该凉快了吧?


理论上已经是深秋时节的,可杭州的天还是让人那么难耐,秋高气爽,万里无云,似乎是很遥远的词汇了。前几天,气温有攀高到了34°c,(据民间传言,一时36°c了。。。),而此时,hbn正在经受着京城入秋以来的最低温,18°c。

昨日,突如其来的大雨倾盆而下,霎时电闪雷鸣,风雨交加,年久失修的实验室竟然漏雨了。。。宿舍也毫无悬念的被淹,幸好这次来的猛,去的也快,不然,又要出现上次玉泉汪洋的景象了。雨过之后的杭州,更像是夏天,潮湿闷热,密不透风。。。想一下,今年夏天过的那个舒坦,真是长此以往,天将不天。晚上回来的路上,起风了,地面上还是昨天大雨打下的树叶,看上去还真有点秋的味道。秋天再不来就冬天了,桂花到底还香不香?

Adobe 和 QQ 都 9.0了

我装的第三方pdf reader今天读中文总是有bug,索性上缘网下了一个新的。一看Adobe Reader出到9.0了已经,中文版也出了,装了个英文的又装了下中文补丁,运行起来甚是流畅,而且画面和8一样华丽,但是速度明显快很多。其他的一些新功能对于我ms没有太高的引力,毕竟只是基本应用而已,看看缘网的评论,好评一片,而且Acrobat Pro9 也出来了,下了下来还没装,据说装好了要1.2G,但是装过的人的评价是:和Adobe Reader一样快,很快,很巨大。。。
与此同时,QQ 2009 Preview版也出来有段时间了,那天在小辛的建议下,去官网下了一个,因为还是预览版,所以要先申请下,不过就是点下鼠标的时间就搞定了。界面也很精致,有些地方更像msn了。。。小辛说:很pp,在vista下更pp~~
下一个更新的产品是啥?

office2007 word 图片无法显示的问题

office2007 word 里面的图片突然不能显示了,只有一个白白的框,但是调整大小的时候能看到原图在闪烁,到网上查了一下,解决方法如下:

1.点击左上角的office 2007特有的button,进入Word选项->高级,

2.第三栏,显示文档内容,将第三项“显示图片框”前面的复选框去掉,点击确认,一切OK了。这个office 2007的default选项设置的很不合理呀,不过或许是为了提高阅读版式视图的使用率吧~~

cjl(6)

上次游泳雨里来雨里去,这次去的时候也是电闪雷鸣,阴风阵阵,还好下雨的时候正在游泳,等结束的时候雨也停了。
本学期第二次出游,体能还是很差,游上两个25M就气喘嘘嘘了。值得一提的是,本次直接晋级到第7泳道了,并在第6泳道小试身手,嘿嘿。这次正值周末,cjl的人可不是一般的多,一去里面就一片繁荣的景象,第8泳道里站满了人,确实是站。。。我在第7泳道游到一般数了一下,有20+的人,还不包括坐在池边闲聊的,简直有学校食堂的味道了。。。人多水少,加之下雨外场不能用,今天基本上是在练习障碍赛。横穿泳池来回找泳道的人都可以组团了,而且统一泳道双人并行也时常发生,有些时候你还会发现有潜泳者在池底不期而遇,你要不断变换航线,以防撞车。。。看来cjl也有必要实行单双号限行了。今天游了也大概有40-50分钟,还是比较累的,和上次差不多。现在障碍赛也可以游25M了,其中前15M是采用一步一呼吸,也算略有进步吧。今天比较时常的地方是,一下水就呛了一下,鼻子进水严重,而且一步一呼吸练习的时候,没掌握好节奏,结结实实的喝了一口,恶心中。。。现在的主要问题感觉是体能,后半程明显游速下降,上肢无力,下肢登水效果也不明显,蹬腿夹水总是记不住。。。另外,这次cjl的水质明显下降了,而且人巨多,不知道会不会改观了,期待下次!

Anchor Text-链接锚文本

Wikipedia:The anchor text or link label is the visible, clickable text in a hyperlink. The words contained in the Anchor text can determine the ranking that page will receive by search engines.

Anchor Text 非常重要。通过一个简单实验,可以深刻理解这个重要性。
http://www.google.com/ 中搜索 “click here” ,我们发现,排在搜索结果第一页第一位的是http://www.adobe.com/ 的网页,下面几位是 http://www.xe.com/http://www.apple.com/http://www.microsoft.com/ 等(这几个的PR值均为9或10,过会儿去看看)。
这几个网站的页面内都不包含 “click here” 这个关键词,那为什么他们排到前几位去了呢?
原因是:为数众多的网页以 “click here” 为链接锚文本指向这几个网站。

现在去看看吧:Google

Lucene:基于Java的全文检索引擎简介

Lucene:基于Java的全文检索引擎简介
请点击查看原文。##CONTINUE##

Lucene是一个基于Java的全文索引工具包。
基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史
全文检索的实现:Luene全文索引和数据库索引的比较
中文切分词机制简介:基于词库和自动切分词算法的比较
具体的安装和使用简介:系统结构介绍和演示
Hacking Lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩展
从Lucene我们还可以学到什么

参考资料:
Apache: Lucene Project
http://jakarta.apache.org/lucene/
Lucene开发/用户邮件列表归档
http://www.mail-archive.com/lucene-dev@jakarta.apache.org/
http://www.mail-archive.com/lucene-user@jakarta.apache.org/
The Lucene search engine: Powerful, flexible, and free
http://www.javaworld.com/javaworld/jw-09-2000/jw-0915-Lucene_p.html
Lucene Tutorial
http://www.darksleep.com/puff/lucene/lucene.html
Notes on distributed searching with Lucene
http://home.clara.net/markharwood/lucene/
中文语言的切分词
http://www.google.com/search?sourceid=navclient&hl=zh-CN&q=chinese+word+segment
搜索引擎工具介绍
http://searchtools.com/
Lucene作者Cutting的几篇论文和专利
http://lucene.sourceforge.net/publications.html
Lucene的.NET实现:dotLucene
http://sourceforge.net/projects/dotlucene/
Lucene作者Cutting的另外一个项目:基于Java的搜索引擎Nutch
http://www.nutch.org/
http://sourceforge.net/projects/nutch/
关于基于词表和N-Gram的切分词比较
http://china.nikkeibp.co.jp/cgi-bin/china/news/int/int200302100112.html
2005-01-08 Cutting在Pisa大学做的关于Lucene的讲座:非常详细的Lucene架构解说
特别感谢:前网易CTO许良杰(Jack Xu)给我的指导:是您将我带入了搜索引擎这个行业。

Nutch介绍[转自Nutch中文网站]

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。可以为什么我们需要建立自己的搜索引擎呢?毕竟我们已经有google可以使用。这里我列出3点原因: ##CONTINUE##

透明度:Nutch是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允许竞价排名,比如百度,这样的索引结果并不是和站点内容相关的。因此 Nutch 对学术搜索和政府类站点的搜索来说,是个好选择。因为一个公平的排序结果是非常重要的。
对搜索引擎的理解:我们并没有google的源代码,因此学习搜索引擎Nutch是个不错的选择。了解一个大型分布式的搜索引擎如何工作是一件让人很受益的事情。在写Nutch的过程中,从学院派和工业派借鉴了很多知识:比如:Nutch的核心部分目前已经被重新用 Map Reduce 实现了。看过开复演讲的人都知道 Map Reduce 的一点知识吧。Map Reduce 是一个分布式的处理模型,最先是从 Google 实验室提出来的。你也可以从下面获得更多的消息。

http://www.domolo.com/bbs/list.asp?boardid=29

http://domolo.oicp.net/bbs/list.asp?boardid=29

并且 Nutch 也吸引了很多研究者,他们非常乐于尝试新的搜索算法,因为对Nutch 来说,这是非常容易实现扩展的。
扩展性:你是不是不喜欢其他的搜索引擎展现结果的方式呢?那就用 Nutch 写你自己的搜索引擎吧。 Nutch 是非常灵活的:他可以被很好的客户订制并集成到你的应用程序中:使用Nutch 的插件机制,Nutch 可以作为一个搜索不同信息载体的搜索平台。当然,最简单的就是集成Nutch到你的站点,为你的用户提供搜索服务。
Nutch 的安装分为3个层次:基于本地文件系统,基于局域网,或者基于 internet 。不同的安装方式具有不同的特色。比如:索引一个本地文件系统相对于其他两个来说肯定是要稳定多了,因为没有 网络错误也不同缓存文件的拷贝。基于Internet 的搜索又是另一个极端:抓取数以千计的网页有很多技术问题需要解决:我们从哪些页面开始抓取?我们如何分配抓取工作?何时需要重新抓取?我们如何解决失效的链接,没有响应的站点和重复的内容?还有如何解决对大型数据的上百个并发访问?搭建这样一个搜索引擎是一笔不小的投资呀!在 ” Building Nutch: Open Source Search,” 的作者 Mike Cafarella 和 Doug Cutting 总结如下::

… 一个具有完全功能的搜索系统:1亿页面索引量,每秒2个并发索引,需要每月800美元。10亿页面索引量,每秒50个页面请求,大概需要每月30000美元。

这篇文章将为你演示如何在中等级别的网站上搭建Nutch。第一部分集中在抓取上。Nutch的抓取架构,如何运行一个抓取程序,理解这个抓取过程产生了什么。第二部分关注搜索。演示如何运行Nutch搜索程序。以及如何订制Nutch 。

Nutch Vs. Lucene

Nutch 是基于 Lucene的。Lucene为 Nutch 提供了文本索引和搜索的API。一个常见的问题是;我应该使用Lucene还是Nutch?最简单的回答是:如果你不需要抓取数据的话,应该使用Lucene。常见的应用场合是:你有数据源,需要为这些数据提供一个搜索页面。在这种情况下,最好的方式是直接从数据库中取出数据并用Lucene API建立索引。中文用户,可以参考 WebLucene 或者 车东 的一些列文章。如果需要中文分词帮助还可以联系作者。 http://domolo.oicp.net/bbs/list.asp?boardid=24 Erik Hatcher 和 Otis Gospodnetić’s 的 Lucene in Action 中详细讲述了这个过程。Nutch 适用于你无法直接获取数据库中的网站,或者比较分散的数据源的情况下使用。

架构

总体上Nutch可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引。两者都使用索引中的字段。()

实际上搜索程序和抓取程序可以分别位于不同的机器上。()

这里我们先看看Nutch的抓取部分。

抓取程序:

抓取程序是被Nutch的抓取工具驱动的。这是一组工具,用来建立和维护几个不同的数据结构: web database, a set of segments, and the index。下面我们逐个解释上面提到的3个不同的数据结构。

The web database, 或者WebDB, 是一个特殊存储数据结构,用来映像被抓取网站数据的结构和属性的集合。WebDB 用来存储从抓取开始(包括重新抓取)的所有网站结构数据和属性。WebDB 只是被 抓取程序使用,搜索程序并不使用它。WebDB 存储2种实体:页面 和 链接。页面 表示 网络上的一个网页,这个网页的Url作为标示被索引,同时建立一个对网页内容的MD5 哈希签名。跟网页相关的其它内容也被存储,包括:页面中的链接数量(外链接),页面抓取信息(在页面被重复抓取的情况下),还有表示页面级别的分数 score 。链接 表示从一个网页的链接到其它网页的链接。因此 WebDB 可以说是一个网络图,节点是页面,链接是边。

Segment 是 网页 的集合,并且它被索引。 Segment 的 Fetchlist 是抓取程序使用的 url 列表 , 它是从 WebDB中生成的。Fetcher 的输出数据是从 fetchlist 中抓取的网页。Fetcher 的输出数据先被反向索引,然后索引后的结果被存储在segment 中。 Segment 的生命周期是有限制的,当下一轮抓取开始后它就没有用了。默认的 重新抓取间隔是30天。因此删除超过这个时间期限的segment是可以的。而且也可以节省不少磁盘空间。Segment 的命名是 日期加时间 ,因此很直观的可以看出他们的存活周期。

索引库 是 反向索引所有系统中被抓取的页面,他并不直接从页面反向索引产生,它是合并很多小的 segment 的索引中产生的。Nutch 使用 Lucene 来建立索引,因此所有 Lucene 相关的工具 API 都用来建立索引库。需要说明的是 Lucene 的 segment 的概念 和 Nutch 的 segment 概念是完全不同的,不要混淆哦。 可以参考 车东 的相关文章。 www.chedong.com 简单来说 Lucene 的 segment 是 Lucene 索引库的一部分,而 Nutch 的 Segment 是 WebDB 中 被 抓取和索引的一部分。

Google Android手机—HTC Dream发布日期提前

摘自:InformationWeek

##CONTINUE##译文:

T-Mobile将开始销售HTC Dream—一款装配Google Android开源移动平台的智能手机。据华尔街日报的报道,这款手机已做好与苹果的IPHONE和RIM的黑莓进行抗衡的准备。

按以前的报道,HTC Dream将会在9月17日提供预订,但是华尔街日报却报道T-Mobile将在9月23日发布。Androd官方博客Stefan Frank贴了一份关于9月23日早上10点在纽约记者招待会的邀请函.

HTC Dream在八月份通过FCC(联邦通信委员会)批准。

该手机的详细配置还未经确认,但是一些如华尔街日报和非官方T-Mobile博客Tmonews等消息来源表明HTC Dream将支持3G网络,有5×3寸的触摸屏,轨迹球和一个侧滑或旋转QWERTY键盘。

HTC Dream将是市场上第一款装配Google Android软件的智能手机,更吸引人的是在Google Android平台上已经开发了各种第三方应用软件。

不像苹果,Google一直对那些想要为Google Android手机开发软件的开发者提供大力支持—Google发起Android开发挑战者计划,为最佳Google Android应用软件设立1000万美元的奖项。

首轮获奖软件包括可以让用户在他们手机上轻轻一点就能叫来出租车的Cab3me软件,和自动跟踪用户移动碳足迹的ECORIO软件。

原文:

The Google Channel

September 16, 2008

Dream On: T-Mobile To Unveil First Google Android Phone Soon

T-Mobile will be selling the HTC Dream, a smartphone that will run the Google Android open source mobile platform and is poised to take on the Apple iPhone and Research in Motion’s BlackBerry, in late October, according to an article by the Wall Street Journal.

Previous reports indicated the HTC Dream could be available for pre-order as early as Sept. 17, but the Wall Street Journal says that T-Mobile will announce the HTC Dream on Sept. 23. Stefan Frank of the blog Android Authority posted a screenshot of his invitation to a press conference on Sept. 23 at 10:30 a.m. in New York City.

The HTC Dream was approved by the FCC back in August.

Details have not been confirmed, but sources such as the Wall Street Journal and the unofficial T-Mobile blog Tmonews indicate that it’s likely the HTC Dream will run on the 3G network, and have a 5-inch by 3-inch touchscreen, a trackball and a sliding or swivel QWERTY keyboard.

The HTC Dream will be the first smartphone on the market equipped with Google Android software; interestingly, a variety of third party apps have already been created on the Google Android platform.

Unlike Apple, Google is throwing a lot of support behind developers who want to create apps for Google Android phones — Google is sponsoring the Android Developer challenge with a total of $10 million in prizes for the best Google Android apps. Winning apps from the first round of the contest include cab4me, which will allow users to order a cab with a single click on their phones, and Ecorio, which automatically tracks a user’s mobile carbon footprint.