I am not sure if I have time to give a lecture about my www2004 trip. Anyway here are my memos.
enjoy,
lenny
注册领好材料后,开始研读明天应该出席哪些sessions。
同以前一样,那么多的题材,那么多的内容都想听,但都是并行进行的。如果说对这种类型规模的conference有微词的话,那就是安排了那么多的并行 sessions,成心就不让人同时体验熊掌和燕窝,非让你丢掉一些。这样的话,案前的准备工作就更加重要了。当然,会期也应该是个限制因素。联想到我们纵横码要开经验交流会的窘境,真是天壤之别。
基本上来说,我现在的兴趣在于:content-based access, distance learning(e-learning)。当然这些东西有一定的相关。所以,这些内容相关的关键词是:semantics, annotation, tags, IE, mining等等,当然,还有一个热门的似是而非的词ontology.
和semantic相关的有两个方面:一是资源的组织(静态层面)二是相应于这个资源的应用开发(动态层面)。第一层面涉及的关键词是 annotating, tagging, structuring, 这是我们content-based access的基础;第二层面是如何消费支持semantic的资源,关键词应该是XQuery,mining等。
回过头来,什么是content?我认为就是information! Data有了meaning就是content!就是information!当然,我理解最简单的data->content思路就是结构化 data。Distance learning可以被看成content-based access的在education domain的一个application。
再来看对ontology的理解。第一次接触是在hy98上,当时人家用的复数,web ontologies。迷迷糊糊认为应该是“总体意义,总体规范”之类。后来一查字典,“存在论”,反而不明所以。后来看到次数多了,更加坚信我原始的理解是对的。这又是一个字典不能正确帮助你理解专业概念的典型。想想在njit挑起的IT/IS, engine/science的争论,还是有一点自鸣得意。与ontology类似的还有一个词:taxonomy。也是在探讨在一个特定的应用 domain中定义好所有先验概念的意思。
在web上进行概念或内容的描述,与在一般text数据上进行描述,有什么区别呢?我现在要的是后者。所以看看前者做了些什么,对我的工作有什么启发?相同的方面是它们都是文本数据,但web数据至少是半结构化的。而我的text却没有。
转战了三个预定会场:TA5: Building XML application with XQuery,太简单,从XML的ABC开始,简直是骗钱,当我是本科生? WF12: Evaluating Web:太玄,而且还是from user perspective?即使是from professional perspective,evaluating一个system也是件难事情。一看agenda, 没有兴趣。 最后定位到WF3: Content Labeling workshop.
1st speaker: Kaz 9:00-9:30 Welcome & Content Labeling: Toward the Web of Trust, kazuhiro Kitagawa
Inside/outside of content
把I18N提到很高的高度,对我胃口。但还要Cross cultural issues! 谈何容易!不但要render出来,还要cultural!!!
第一个presentation仅仅是提出了问题而已,这些内容也没有很好组织,没有系统,仅仅就是一些ideas。没有任何内容。
2nd speaker: Phil 9:30-10:00 ICRA's experience of the technical and policy issues related to content labelling, Phil Archer 虽然有PICS,但不遵守,即使是msn.正面的例子是t-online。 解决的策略是:Centralized meta-storage。当然,一centralize,什么都能解决了。问题是,在IT界,没有centralize的可能,只有monopolize! 等于没提。
3rd speaker: 10:00-10.30 Architecture for Implementing Content Labeling and Filtering with Mobile Internet , Akio Kokubu 错过。不过这个老日本的英语一点也没有听懂,虽然他讲得很慢。
我正担心,这个workshop可能只提问题,不提解决方案。听到现在,果然如此。 谈得最多的是问题,而不是技术手段。而是技术策略。小日本提的都是filter, proxy,实际上就是我一直信奉的mediation方案。
关于web页面的每一个成分都可以label吗?估计最小的单位应该是URI。能够label a piece of text content?
不过,2年前对Tim的semantic web的担心,现在看来多余了。确实,至少在web上面,似乎semantic起来了。查一下Phil提到的http://www.t-online.com,果然!厉害! 杨涛、吴娴,我们的l2bank可以做了。
下午不能在这个workshop泡了。不过结识了Vodafone的Daniel, 是Vodafone在W3C中的代表。鼎鼎大名的Vodafone,是F1(Ferrari?)的赞助商和英超MU的赞助商。
下午去了WF5: semantic in P2P and Grid Computing。 很有用的资源:http://www.semanticgrid.org,是关于这个方向的很有用的portal。 Web service似乎是semantic的最基本承载了,当然在这个会上是。但是不是唯一的承载呢?我想不是。
P2P当然同grid是天然的结合。松散的grid正好是peer的体现。P2P已经有那么多的成功应用,grid computing正好拿来进行扩展和通用化。
听了UC Berkley一个中国人的报告:英语一流,内容具体,还有演示。同我的理解一致:中国人的长项在于实现、具体。当老外在夸夸其谈research的时候,他手下的中国人就把它实现出来,具体化出来。这个演示是一个grid控制、运行、体现的框架系统:在workflow的层面上,定义好一个任务,在这个dbGrid上就可以协调同步前进了。有意思的是,这个prototype强烈依赖于RDB。
这个时间总是属于Tim,捋胳膊挽袖子、手舞足蹈的时候。
几个欢迎词。 ACM, NYU, 纽约市政府。没有什么信息量。
DNS names. New 9 domains proposed. 有这么多吗?我曾经考虑过Internet的国际化和本地化问题,当时有一篇新加坡的论文谈到了DNS的中文化问题,太丑陋教条,比我的想法差远了。那么,现在竟然有了9个新的domains出来,到底是新的DNS标准,还只是9个顶级域名而已。如果是后者,那还好。如果是前者,那么中文化的问题有没有考虑进去?(从下面的进展介绍来看,只是9个顶级域名而已!后补注) Tree-like, it’s flat. 当然,现在的域名就是树状的。从概念的层次讲,不一定是最好的结构。联想到我真在考虑的文件名字空间的问题,应该是同一个问题。文件名字空间也是和域名结构一样,我希望用一种新的更概念化的结构来替代,姑且也称之为semantic file name space吧。
Criteria for new domain. .mobi. 大讲web的通用性,所以.mobi break the independence of device What is mobile? I have the idea. 和Tim列举出来的比较一下,各有千秋。我对mobile的理解是(当时徐斌做论文时就和他谈了我的看法):在不稳定的连接状态下的网络应用,最关键点是:host的连接应该可以随着移动环境改变其物理id!而这种改变,对host上面的应用来说,应该是透明的,不间断的。 Haystack,这是一个在MIT的中国人做的关于RDF语义浏览器。后面详述。 Semantic web browser: user control… Phrase 1: OWL, RDF Phrase 2: Semantic WEB basis: URI means thing!老生常谈了。 Bootstrap application. 现在已经够多了!他还要bootstrap!
这个主题演讲还是由于语言障碍,没有太深入理解。等w3c发布了他的演讲稿后再研究吧。不过一个小插曲,Tim竟然crashed他的演讲演示。当然,Bill Gates都会,他Tim为什么不可以。
好文,事前细读和细听了!钱龙华应该仔细研读。其实,他的思想同我们做email增值代理(Phoenix的论文,程小姐其实应该有实力至少在 poster上露露小脸的:-)的思想虽然说不一致,但是从用户最终得到的功能来说,是类似的。只不过我们没有纳入到Semantic的层次,我们只是用了应用逻辑来实现,而该论文在数据的组织层次就面向semantic应用了。这篇论文同时再次给了我启发:这论文的基本手法,也还是把email作为一种通讯协议而已,在此之上,构筑更加高级的应用。这同Web service把http作为通讯协议的手法一样。因为http和smtp是如此之普及,所以,我们可以再在应用之上再构筑应用!!! 该文最后竟然获得Best Paper Award!我的眼光看来还是蛮凶的? 唉,也就这一点可以聊以自慰的了。
How to Make a Semantic Web Browser.
选中这篇论文,纯粹是因为标题吸引人。仔细一看,就是Tim在主题演讲中提到的Haystack。看来我又选对了。该文的老板就是MIT的W3C成员,干将就是中国人,Dennis Quan,IBM Research,又是一个英语好得令我咂舌的中国人。其角色一如其他中国“研究人员”:实现,implementation!从论文来看,有取巧之嫌!应该是How to Make a Semantic Browser,当中少了个web可是非同小可!其实,Haystack只是一个浏览RDF的viewer,当然是面向开发人员的,还不是最终用户可以体验到的semantic。不过能够把RDF之间的关系也演练visualize出来,够出色了。
Improving Web Browsing on Wireless PDAs Using Thin-Client Computing.
这篇论文值得推荐。第一,内容上,同我们做的George的Linea项目后期的思路完全一样!!!他所提出来的thin-client模式就是我们提的多功能代理模式。早在我们的863PIM项目中,就已经明确提出了PDA只能做viewer的角色,最多也就是data provider而已,不适合做processor!然后在Linea项目中,由于本身PDA的Z80的计算能力限制,完整的email客户端是不可能完全在Linea上实现的,所以就有了邮件代理一说,这就是本文提到的thin-client模式。看看,我们的路又走对了。不过由于Linea硬件上的问题,销售不理想,以至于我们的邮件代理演变成一个硕士论文项目而不是一个商业项目。 第二,推荐这篇论文的写作路子,我们的研究生应该完全写得出这样的论文,这是一篇标准的empirical论文。我曾经在上学期的ADB03课程布置了课程项目CourseProject,要求比较基于fs和rdb的Web Cache的性能,当时就言明这是课程论文的一个“眼”,写得好完全可以超脱课程要求而独立称为论文。结果,没有一篇课程论文给出像样的定量的比较,最多都只是定性的比较。你不是爱因斯坦的成就、你没有Bill Gates的号召力,简单的定性的结论是没有任何价值的!只有比较、然后有结果,结论都不要轻易下!看看这篇论文,洋洋洒洒10个页面,但都是在叙述实验过程和结果。有什么难的?!该文的缺陷是,结论下得太早。对结论我有一些疑问,果然,论文报告完毕后,就有两个提问者提到了结论的不周全。盖因实验设计有一些问题。所以,我认为,这种类型的论文,准确叙述出实验设计、实验过程、实验结果,that’s it!归纳结论要谨慎,要有把握。 第三,把我春节里设计的本学期osana04的课程项目post出来看看,03级的研究生们有些什么感觉? 把上学期的adb03的课程项目要求回过头来看看,02级的研究生有些什么感觉?
The interoperability of Learning Object Repositories and services:
又是对象的互操作性,又是e-learning的domain,我当然感兴趣。不过,该文的解决办法,不敢恭维:标准化。大家一标准,当然就 interoperability了,之所以有互操作问题,就是因为大家都不标准,所以难点就是异构对象之间的互操作问题。关于learning objects,也有提到李浩论文中的scorm规范,不过该规范只描述了特定的learning objects之间的交互,不涉及异构的learning objects之间的交互。其实,这个话题倒是可以有为的。把一般的OO应用到e-learning的domain中,应该是可以出成果的点。还可以把 semantic和interoperability联系起来,在WEB那边也可以搭边,在OO那边也可以搭边。
Towards the Self-Annotating Web.
Annotation原来是hypermedia中的典型问题,现在在semantic Web的大背景下,annotation也来插一脚了。我给adb02课程的课程项目中,也要求做一个支持annotating的bbs系统。这次关于 annotation有三篇文章。一般的annotating都是menu的,本文提出一种自动的基于pattern的和web知识的标注系统。看看他的 section 2,很有意思,也不难理解。 这一组的三篇论文都值得一看。 我一直想让顾平把Windows桌面变成一个自动的annotated的桌面,真是做出来的话,应该是有到这种类型的conference的实力了,最起码,hypermedia的年会肯定可以挤挤。
可以看得懂的论文还有许多,我将全部发布在http://www.zhhz.org/papers/www2004上,不知道有多少学生来看。
西方人的餐桌是交流的场所,你可以获得很多信息和认识很多朋友。
第一个lunch和一个老印和一个德国人为伴,交流个各自的感兴趣的内容。特别有趣的是那个德国人竟然是搞物理射线的,现在对Web security和privacy感兴趣。我顺便问了他所谓信息在光上面的传播速度极限问题。他也讲不清楚。同样,我讲了那个著名的在餐桌上下载一道菜单上没有的菜给食客的笑话。众皆laugh!
很难想象,第二个lunch竟然和Tim在一张table上,中间隔了一个Toronto计算机的教授。Toronto教授兴奋异常,问我有没有DC他要照相留影。我一方面绝不是追星族,另一方面,我也不会轻易崇拜谁,所以,我说,I am sorry I haven’t. But I think it does not mean anything. Toronto教授想了想,说,Yes, you are right. It does not say anything. But just for memory.
所谓书到用时方恨少,平时我觉得英语理解和表达还是可以的,但和Tim还是由于语言障碍,交流不深。他的英语很快,又太学术,所以很难跟上他的意思。当然,更重要的原因是这两年,我在他这个方向上也掉队了不少(哎!研究生们太不得力了!非但不能帮掉我什么,反而牵扯掉不少精力!否则,我怎么会跟不上呢?)。我只问到了一个问题:RDF的谓词表示URI之间的关系,那么这种谓词关系是否足够用来表示一切对象之间的关系?(Is RDF enough to describe all relationships among all objects?) Tim的回答是yes,但是听不大明白他的解释。大意是A relates B,由于B可以是列表(collection list),B 再relates C,所以,RDF是够了。因为不再跟踪W3C很长时间了,所以跟不上他所描述的那些概念了。我还是比较质疑他的回答的。这有点像我一直想知道这个问题的答案:怎样论证用UML做出来的分析对系统来说是够了,而不是多了;是一致的,而不存在矛盾?就像我在本科时用SA方法分析中电公司项目的财务问题时,也是只管把吴处长的应用逻辑记载和表述出来,当时就想,谁来检验这里面有没有自相矛盾的地方?这种矛盾应该只能在编程完成后才能体现出来。
欢迎晚会和“大字报”(poster session)很有传统和特色。在大自助餐会场一边吃那些没什么吃头的西菜,一边品评“大字报”。“大字报”的主人一看到有人来看,立马殷勤地放下碟子,向你解释他的“大字报”以及“大字报”后面的没有体现的工作。一般来说,“大字报”的作者都是phd学生。我在上一次www2002的报告中就提出,我的第一步愿望是:让我的学生在“大字报”环节中亮相,因为这一点也不难。可是……我真是不能够理解现在的学生!
第二晚的宴会安排在Michael Jordan’s Steak House at Grand Central,在Time Square旁边。可惜,我的时差苦恼使我昏睡错过了那次机会。我真的是老了!
在www2002的时候,组委会提供了在开会区域内的wireless connection,我十分羡慕人家的wireless上网,而我只能带了根辫子上网,很符合清朝人的形象。这次特地带了台迅驰的thinkpad来,还不放心,再带来了一块独立的Intel wireless PC卡。到了旅馆和conference会场后一经历,我才真切地体会到了:中国的WAPI和美国的(国际的?)WLAN打架,是根本打不赢的战争,从而觉得发起这场战争的中国的技术官僚和某些“技术精英”是多么的可笑和无知。
首先,WLAN在www2004的会场是到处cover的,随便到哪一个会场,比如说,NewYorkBallRoom-A,你的笔记本的无线AP就有同名的NewYorkBallRoom-A给你连接,你随时随地的就在网上了。换一个房间会场,那个房间的名字就是一个AP的名字,十分方便。
其次,就在Sheraton Hotel的范围内,检查我的无线卡识别到的AP,超过6家!不过有的需要认证,有的就不需要认证,随便选择一家就可以直接上网,不过连接质量不如会场的好。因为估计人家是免费给你Sheraton的客人用的,要求不要太高了。
第三,在Sheraton的大堂里,也提供了质量很高的无线AP,所以,在大堂里的任何人都可以无线上网,不过,需要在线填写一张登记表,真假不辨,登记表一submit,就OK了,不过每次只有半小时的连接时间,否则需要再次填表。
第四,据说,一般学生share的家里,都配备了一个AP,这样,几个人都可以在家里无线上网。我的学生傅刚家里就是这样。
从这里可以看出,WLAN在这里已经是相当普遍了。所以,美国人怎么可能让你中国人没有被证实和应用的技术染指他的领地?
但愿WAPI只是中国人打出的本来就准备输的一张牌。这样的话我的心理还好受一些,不管这张牌换到了什么样的别的利益。
从中悟出的道理是:任何“新”技术的产业化,用户是第一位的,有了用户,你就是de facto了,美国人就只能跟你走了,因为他要赚你钱。例如,拼音输入法,我想不会是王晓龙去找微软的,而是微软找上门的。再如,中国的电源插座,美国人的电脑也就只能为中国插座另外配备电脑插头线,他不会让中国人全部改成美式插座。
当然,无线也不是风光无限,毕竟它的连接质量和带宽受了限制。特别当一个区域有几个AP覆盖时,就要打架了。例如我在NewYorkBallRoom-A 走到隔壁的NewYorkBallRoom-B时,连接还是NewYorkBallRoom-A,需要手动改成NewYorkBallRoom-B,才能获得比较好的质量。另外,11MB的连接带宽,我猜是共享Hub似的,当一个AP连接了很多用户时,速度是不理想的。我曾在一个conference room里下载了nutch的源程序,后来主持人就讲了,不要在这里下载大traffic的网络流量,只是做做email就可以了。我不知道也没有意识到他是否是看到了我的动作而有意为之,还是一个general reminder。
所以,大会和平常一样,提供了Cyber Café,不过10多个RJ-45头,不过总是人满为患。
第一晚到酒店,先要上网查发邮件。一查酒店设施,房内提供ADSL上网。当然不可能是free的,所以打电话一问,17美元/24Hours。My God!不过没有办法,虽然我确定大会会场肯定免费提供上网服务,但那要是明天呢,我现在就有很多事情要处理。所以,就咬咬牙,上了。结果,当我收发 email正起劲的时候,发现我的thinkpad的无线卡的那个灯一闪一闪的。心里开始嘀咕,会不会可以无线上网吧?不过既然用了有线的,也付了钱,也就认了吧。
第二天到会场一咨询,大呼上当!老美,可恶!明明可以在酒店免费无线上网,但是在我房间内的所有menu中根本没有提到半句,那种第三方提供的无线上网服务你不提倒也罢了,但是,你酒店自己提供的无线上网服务(免费30分钟一次)也不提半个字!尤其可恨的是,当我问上网的事情的时候,居然也不提醒我:我们有无线上网功能,ADSL上网的话,费用是……我的17美元!?
收取1195美刀会务费的www年会,照例没有一样纪念品。而且,主人至少三次在大会announce有20美刀的大会T-shirt供应!我不舍得!不过后来一看,是Polo的,made in China!
这是大会最后一天Developers’ Day中的一个讲座。Nutch是一个opensource的search engine项目。听了和试了他的系统,感慨良多。
首先看看这个search engine的building过程: 1、 按照指定的规则(可以用一种类似perl的表达方式)crawl 指定的网站,限制规则例如,层数、内/外RUI、接受哪些MIME等等; 2、 把crawl过来的页面在数据库中索引存放好; 3、 使用一定的算法来ranking存放好的页面; 4、 给出界面让用户输入query,在自己的库中间按照一定的算法进行模式匹配; 5、 给出匹配结果,以及这些结果之前的中间结果(结果的来源)。
再来看看我们曾经做过的工作: 1、早在5年前,贡正仙和郭蕾作为第一批“君政学者”,我给她们的项目就是上面的1,当时平台就是w3c的libwww,不过没有完成预期结果; 2、我指导的高校教师硕士学位者(00年?):俞倩兰,也是做类似题目,希望是把人民日报网站一锅端下来,没有达到我的预期; 3、我指导的高校教师硕士学位者(01年?):杜孝成,给他的题目是把光盘上的小说文档rdb化,从结构到意思,然后构造一个查询器,能够提供更好的意思查询; 4、在第一届adb(01年?)课程上,我布置的课程项目是上面的2。没有人认真对待,做的结果也是一塌糊涂。
在杨涛、吴娴毕业设计前半年,试图让他们做把1、2、3、4的内容结合起来的题目,即我心目中策划已久的l2bank(早在Charles B. Wang百年校庆时来纵横时我就提出来了)项目。做不下去。可惜,可惜!当然也是自己水平问题不到位啦? 只能看着别人的成果一摞一摞了,只有后悔当初的份了。
一点遗憾:I am sorry that scguo could not make this trip together with me. From the situation I encountered on the conference he was quite possible to be accepted if he tried his best. In fact I was very very disappointed when he told me he wanted to give up such a try. I did not suggest him such best solution: ask his manager about this possible international trip. I don’t think taking 7 days apart from his internship will make possible disaster for his future career. On the contrary, there might be two results from your administration: 1. Woo, this is a capable guy who can make international trip during his college age. I’ll let him go. Then you got it. 2. No, I will not let him go. But I will not say NO. So I told him: “It’s up to you.” If so, scguo should evaluate whether this trip should be considered. Even if you made decision not to go, isn’t it showing your loyalty to the new boss? Therefore isn’t it a better result than just simply dropping the possibility? Sincerely wish you brilliant future!
我在本次大会的收获,当然是满满的。
但是最终对我自己的定位:我只是一个旁观者,参与者都轮不上。但是有实力有信心成为参与者!明年千叶见。
失去了这个很可能可以抓住的机会,对我来说已经不仅仅是遗憾了:)
这样的结果还是源于自己不够自信,不敢尝试,没有耐心。当初吕老师提供这样一个可以申请作为volunteer参加WWW2004的信息时,我就在问自己:真的可以吗?二十几年来就没出过几次江苏省的我,真的可以站在时代广场抬头仰望传说中的美国月亮吗,哎 ,醒醒,醒醒 :)
吕老师的用心和试试看的想法,还是让我按照大会的要求向组委会提交了志愿者申请,很快就收到了组委会确认接到申请的邮件,其内容是找工作投简历后最多的答复:等消息(≈你没戏)!那时候应该是去年12月份。转眼放寒假了,吕老师问起这事,我说明了情况,吕老师满怀希望地让我寒假在镇江办啥签证、护照(刚刚问了wezhu才搞明白两者的区别:),我就嘀咕了:这么长时间都没反应,还有啥希望呀,找工作时很多公司就是这样拒人的呀。那时我已认定这趟 international trip没戏,所以寒假在家除了吃喝玩乐啥事也没办。以为这事就这么完了,3月12号收到组委会WWW 2004 Registration Form的邮件:填一张application form,如果组委会觉得你适合为大会服务的话,你就是volunteer of WWW 2004啦,吃住全免噢。可3月份正是项目、论文、工作......搞得我头大的时候,想想申请、护照、签证,时间也不太来得及,最终还是放弃了。 现在想想如果能有这样一次international trip倒是真的挺不错,可惜当时自己没有尽力去争取,因为总觉得那样的事情离自己比较遥远,可现实却说明机会与我擦肩而过。也算给自己一个教训,给学弟学妹一个借鉴:Don't be afraid, just try!
Shannon
Qiang Lv 2008-07-21