胡江堂

9月 202012
 

这个(所谓)“技术博客”的矫情,由来已久。很久很久以前,它搁在现已经灰飞烟灭的Windows Live Space上,写写停停,停停写写。然后在Space下线之前,它移到了这个我自己的域名下面,也是停停写写,写写停停。后来,我一度大块时间停止更新,是2009年毕业,我从一家IT公司挪到一家药厂,说自己要在新的环境下找找能写的东西,–应该是找到了一点,因为大半年之前,我又陆陆续续贴一些东西,但几个月几个月不更新,就是常态了。——要是它也大半年或者就一年两年不更新,照着它的历史表现,那也不会很意外。

年初我转去北卡工作,这块是撂下很久了。间歇地更新下英文博客,大致也是SAS、统计和CDISC相关的东西:

http://www.jiangtanghu.com/blog/

为了保持中文的热度,我那个中文生活博客比什么更新地都勤快(现在是941篇了),

http://li-and-jiang.com/blog

跟工作/技术相关的,倒是有一个粗略的总结,《去美国工作:简单问答》

http://li-and-jiang.com/blog/2012/08/13/us-job/

极客屋

 未分类  No Responses »
2月 252012
 

GitHub

刚Google了一下,大致有信心可以把GitHub翻译成“极客屋”这一荣誉划到自己名下。当然,早有把geek station翻译成“极客屋”的,窃以为可以并存。

科普一下,Git是最近几年开始流行的版本控制软件(比CVS、SVN要新),而GitHub(极客屋)则是部署了Git的一个网络合作平台(当然你也可以把Git部署在自己机器上)。谢益辉说Git是版本控制软件中的战斗机,极客屋则是程序员的Facebook。早就受他感染,自己也去注册了一个,开始玩儿:

https://github.com/Jiangtang

看益辉自打来到美国,一半以上的在线时间都泡在极客屋里。借助个平台,大概可以激发自己写代码的兴致,我也要多督促自己多些代码了。

一月份我到的北卡,离SAS总部是更近,但是自己SAS代码却写得不多。我在这里换了份工作,从纯SAS程序员转成咨询顾问(还是在临床研究这个领域),工具大致是Excel、SAS Solutions(+Java)、PowerPoint,SAS Base本身则成了一门胶水语言,不像以前是出报表的主打工具。北卡地广人稀,鸡犬之声不相闻,跟北京比是几乎没什么应酬,刚好可以写写代码,杀杀时间(为写代码而写代码,简直跟为艺术而艺术一样纯粹)。

翻了下这个博客,更新得是很不够(我去年年底的一份总结在这里)。但接下来的时间里,我会更多地更新另一个英文技术博客(From a Logical Point of View)。关于技术话题(比如SAS, CDISC),即使对中文读者来说,英文也是更为Google Searchable的(如果google不到,那就可能不存在),这样对读者和我,都方便了很多。听谁说过,博客不是用来浏览的,而是用来被搜索的。这个中文(所谓)技术博客,我觉得最好用来说说八卦,技术八卦什么的,然后它们链上某些有意思的话题,比如说极客屋之类的。下篇或许谈谈我现在的公司和CDISC,我每天的工作。

10月 262011
 

这个周五,我会跟同事(SAS程序员和生物统计师)一起去北大做个关于SAS编程与生物统计的经验交流,感兴趣的朋友不妨去转转。这个活动由我以前在学校的社团,北大应用统计研究会帮忙张罗。之前我在协会负责SAS俱乐部。

主题(关键字):SAS编程、生物统计、行业应用

时间:2011年10月28号,周五,晚上,7点到9点

地点:北京大学,二教422(地铁北大东门下就是)

适用人群:对SAS与生物统计感兴趣的在校生,其他感兴趣的朋友也欢迎捧场

组织单位:北京大学应用统计研究会

出席人员:来自赛诺菲巴斯德(Sanofi Pasteur)生物统计中国部的SAS程序员与生物统计师

这将是一场非正规的经验交流(赶在这个校园招聘忙的季节),但我们也抱着接触潜在实习生与员工的想法。对我个人来说,就是趁着机会,回次学校,见见朋友,再体会一把久违的社团生活。

又,如果你是在校生,先读一下这篇文章会很有作用:

http://cos.name/2010/04/think-sas-1/

10月 052011
 

大半年没跟新了。一些个人技术方面的动向在英文博客里:

1.  CDISC Express

CDISC Express是一款开源的SDTM转化器,基于SAS和Excel(其实背后是XML)。我为这个产品写了一系列的入门教程,并参加了一个相应的比赛(赢了一台iPad)。益辉最近也抽中了一台Kindle,加上上半年在SAS Global Forum拎回来的一台Kindle,不禁感慨,知识(和概率)真是咱农民的第一生产力呀。对着手头这台上世纪的诺基亚6300,我坚定的目光瞄上了iPhone5。有一句话说,做自己喜欢的事,然后找一个人或机构买单,人生一乐也。

又,把临床数据自动导入到符合CDISC标准的数据集,现在有不少vendor在做,很多药厂内部也有开发。感兴趣的朋友不妨也鼓捣鼓捣。

2. Big Data

现在还提这个概念就较不时尚了,重要的是如何做,或者如何为以后做些准备。SAS也将加入对Hadoop的支持,不过现在Hadoop的框架还是基于Java,拣回来些C/C++、Java或者Python还是很有戏场的(甚至R也能够玩会Hapoop),对一个SAS程序员来说,是时候更新自个的工具箱了。

迄今为止,这个领域还是IT人士的天下。这一方面说明了我们这些传统的数据分析人员还需要夯实技术(去看看Hadoop的‘hello world’, 所有的操作都要分解为map()和reduce(),而这并不是所有人都习惯的),也说明目前这一块,发展还在起步阶段,因为这些框架,最终都是要为了让数据产生价值,而这就不可能有数据分析师的缺席。

3. SAS之外

这些日子,在SAS之外,试图拣回来些数据挖掘的东西。本来准备四月份在拉斯维加考下SAS数据挖掘的认证,后来还是被其他事情给挪掉了。最后所得就是,还是稍微看了下这块的东西,在概念上是过了一遍。这次在拉斯维加,碰到以前在北大一起做SAS俱乐部的朋友光辉,他现在加拿大工作。光辉说他趁着开会的缝隙,随手把SAS的数据挖掘认证(SAS Certified Predictive Modeler using SAS Enterprise Miner 5 or 6 Credential)给考了。这叫行动力啊。

机缘巧合,这上半年有朋友给我介绍Feature Selection(大白话就叫变量选择,在数据挖掘里面属于前期的工作),我就对着一个R的包看了一遍,也就是在脑袋里过一下,最后没有什么成果出来。另一个额外的好处是,这次我是对R在学习方面的优势有了切身体验,对R算是有了些个人感情。一边找论文看,然后几乎就能找到一个相应的R包跑一跑,增加些手感,这效果真是不错。

再说些R。我还真尝试过认真学一学R。做为一个SAS程序员,想,还是从input/output开始吧,就先研读官方文档R Data Import/Export,转了一圈,发现,这数据读取转存还是SAS更为方便有效,对我来说,鼓捣这个有点得不偿失,遂罢。

又想,R对SAS的一个优势在于它支持多种数据结构,像array、list之类,就从这入手了。不知道怎么搞的,在学习R的数据结构时,可能是我学习不够深入,修为不够,总觉得有些不够畅快——具体我说不上来。想,我还是把自己的Python拣回来吧,R跟Python有类似的地方。后来我就能说上来了,Python的List等数据结构,对我来说,的确是更为优雅(换一种说法,或者是因为我还没有读到一本“优雅地”介绍R数据结果的文档)。好吧,到此为止,我的R还停留在用它尝试算法的阶段。

然后就是捡回Python。我两年多的SAS程序员工作经历,一个直接的后果就是把之前学过的一点C++、Java和Python又打回“hello world”的水平,手都生疏了。我读了很多Jian Dai(他在加州做SAS程序员)的代码,包括Perl, C, JavaSAcript等等,想,做SAS程序员也不至于把其他的语言都丢掉,为了方便,又重新学习下Python。

为学而学毕竟有局限,在工作中使用当然来得最快。现在我还没有这机会,除了翻文档之外,就尝试用Python写些小东西,把它就当一回事一样。其实,除了工作中直接使用,还有一项就是参加开源运动——我看益辉这几年写R代码是风生水起,一个极大的外部刺激就是参与开源运动,整个积极性都给起来了。一个普通的统计学博士生,用不了那个多的代码量,那动力,就在于统计之外。

统计。今年的基础统计学习,没有去年那么饱满。每天跟统计师打交道,就想好好学习一下他们的语言。今年,到现在为止,算是在工作中(向统计师)学习,整了下CI calculation和euivalence and noninferiority test。下一步准备鼓捣些Sample Size之类。有个哥们写了一篇文章叫Programmers Need To Learn Statistics Or I Will Kill Them All,好吧,作为一个程序员,为了生命安全,每天跟统计师打交道,还是学下统计了。

4. 工作

不是说自己的工作,是说工作与实习机会。感兴趣的朋友,不妨跟我联系。中南大学统计系的本科生韩帅,不久前结束在我公司的实习,在Sxlion主持的SAS中文门户写了两篇非常有价值的总结文章,大伙可以去看看:

一个SAS菜鸟的故事 学习篇

一个SAS菜鸟的故事 实习篇

人是这样的,只有经历过了(我说的是第一份实习或其他),才能自信地自称“菜鸟”,否则就真是论坛里“弱弱地问”的菜鸟。我推荐我公司,当然是因为最熟悉。说实在的,在北京,在药厂,对SAS程序员来说,这的确是一份不错的的实习机会。去年我也推荐了汤耀华来我公司做实习生,他现在中科院读研。这两位都来自中南大学,怎么说?对我和我的同事来说,他们提升了中南大学在我们心目中的分量。在上海,我想,很多SAS程序员对中南大学也很有兴趣。

一些大学生朋友给我写邮件打电话,说些职业或技术选择的事。这不是选择两个到手的offer,大哥,随便扎进一个方向,都比在那犹豫强。

5. SAS

还是得提一下SAS。现在用上SAS9.2了(然后SAS9.3就华丽丽地发布了。。。),对我来说,直接地,有两个触动:

1)SAS9.2及以后,作图更漂亮,我终于有些动力研究下SAS作图了。在公司,去年与宾州的同事一道,把公司作图的macro(基于9.1.3)的更新以后,以后都直接调用,压根就没写过proc gplot之类,然后我就发现自己作图的那一点点手艺正在迅速凋零。。。

2)SAS9.2中,BASE中正式支持自定义函数(仿佛听到其他门类的程序员在冷笑,我弱弱地辩解一下,SAS/IML早就可以自定义函数,而且对SAS程序员来讲,一直使用macro写一种叫function-like macro,而且,macro也支持递归。。。)。这将给我们的编程生活带来不少乐趣,其中之一就是可以把以前的一些macro改写成函数(方便debug啊)。

在写函数之前,我把SAS BASE里面的函数都看了一遍,省得以后重复造轮子:

SAS_Func

 

 

 

 

 

 

 

把所有的函数分门别类导入到Excel,然后动用一点VBA,把每个函数的解释都搁进每个函数名的comments里。这么一梳理,又发现不少有趣的东西,再议。

5月 202011
 

我有个担心,SAS在国内甚至都没有兴起过,但在校生可能就不愿学它,或者没机会学它了。所以我业余生活的一块,就是在国内R用户最密集的社区,“统计之都”(cos.name),低调低调鼓吹SAS

要声明一下,我对R印象也非常好,身边很多朋友用R,大多在高校,也有在职的。我个人机器里装了R,也用R自学过些数据挖掘,但用得都不够深入,自然是没有底气评价它如何如何,我关注R的行业新闻要多于R本身。不过想身边这么多聪明的大脑都用R,凭他们的品味,R一定不错。关于SAS和R,我的主要意思是,为了找工作的便利,学点SAS吧,又不是什么水火不容。想,有这么多也不笨的大脑,这么多也受人尊重的公司,不用说,SAS也是不赖的东西。

在R面前提SAS,我的语气一般会很谦虚。为什么?因为SAS跟R相比,是太不对称了。现在SAS系统9.2,代码量是1600万行,跟R比赢了是胜之不武,输了就很没面子。所以在“虚拟的”R与SAS之争中,R用户天然占优势地位。

现在SAS用户有一个直接与R用户沟通的机会,“第四届中国R语言会议”,2011年5月28日~29日,人民大学,现在有18个话题:

1    赵毅    R与.NET混合编程及其在化学计量学中的应用
2    李青龙    R与VBA混合编程
3    王洪月    SAS Interation With R
4    胡江堂    R vs SAS

5    颜林林    R的高级编程技巧及Rcpp的介绍
6    李舰    R与高性能运算
7    张金龙    系统发育比较方法方面
8    张雯    R对物种的进化关系进行分析
9    曹宗富    基于R Bioconductor进行生物芯片数据分析
10    曹飞    R在生物信息学中的应用
11    卢一鸣    Lasso算法在高通量生物数据处理中的应用
12    李欣海    R在生物统计教学方面的应用
13    肖嘉敏    基于R的网络用户行为研究
14    祝迎春    R在择偶上的应用
15    邓一硕    R在计量金融的应用
16    林伟林    R在套利中的应用
17    李颖    R相关书籍的出版
18    张伟平    MCMC方法在R中的实现

到时我会把这场“虚拟的”R与SAS之争直接带到会场。王洪月是我的前同事,来自SAS中国研发中心,我很期待他关于SAS 9.2中跟R交互的内容,这才是最积极的正面举动。

又,看现在收到的话题,刨去3、4两个关于SAS的,总结一下,生物信息和social network这块,还真是很火啊:

R与其他语言交互,包括.net、VBA和C++: 1、2、5,

高性能运算:6,这对SAS来说,也是很火的话题

生物:8、9、10、11、12

SNS:13、14

金融:15、16

算法:18,MCMC

其他:17

5月 202011
 

对SAS,这套软件,这家公司,还有这套软件这家公司后面的人,我都带着很浓重的个人感情。现在,可以自豪地宣布,我完成了人生一个的小小心愿,参观了SAS总部,还有就是当面见到了SAS公司1976年的三个创始人

4J_SAS

第一个Anthony James(Jim) Barr,更多地被称为Tony,SAS系统的发明人,今年4月份在佛罗里达拜访他并长谈(右一):

Tony 

Jim Goodnight和John Sall,现在SAS公司的一、二号当家,在拉斯维加斯的SAS全球大会见到。我没有跟Jim Goodnight有任何互动,最“近”的一次是几年前,当时在SAS中国研发中心,收到唯一一份来自Goodnight的邮件,大概是群发给全球一万多号员工的。John Sall来过北京,不过没机会见过。这次在拉斯维加,在一间中型会议室,看他慢慢演示JMP,差点超时。

第四个创始人Jane负责文档,还没有见过。不过去年,就在北京,有幸见过第一本SAS user guide (A User’s Guide to the Statistical Analysis System, 1972)的作者,Dr. Jolayne (‘Jo’) Service(左二):

Jo 

Jo离开北京后,还随着美国统计学代表团参加了上海生物统计学术论坛(SBF)组织的活动。

5月 202011
 

对SAS,这套软件,这家公司,还有这套软件这家公司后面的人,我都带着很浓重的个人感情。现在,可以自豪地宣布,我完成了人生一个的小小心愿,参观了SAS总部,还有就是当面见到了SAS公司1976年的三个创始人

4J_SAS

第一个Anthony James(Jim) Barr,更多地被称为Tony,SAS系统的发明人,今年4月份在佛罗里达拜访他并长谈(右一):

Tony 

Jim Goodnight和John Sall,现在SAS公司的一、二号当家,在拉斯维加斯的SAS全球大会见到。我没有跟Jim Goodnight有任何互动,最“近”的一次是几年前,当时在SAS中国研发中心,收到唯一一份来自Goodnight的邮件,大概是群发给全球一万多号员工的。John Sall来过北京,不过没机会见过。这次在拉斯维加,在一间中型会议室,看他慢慢演示JMP,差点超时。

第四个创始人Jane负责文档,还没有见过。不过去年,就在北京,有幸见过第一本SAS user guide (A User’s Guide to the Statistical Analysis System, 1972)的作者,Dr. Jolayne (‘Jo’) Service(左二):

Jo 

Jo离开北京后,还随着美国统计学代表团参加了上海生物统计学术论坛(SBF)组织的活动。

SAS: 追星篇

 人物  SAS: 追星篇已关闭评论
5月 202011
 

对SAS,这套软件,这家公司,还有这套软件这家公司后面的人,我都带着很浓重的个人感情。现在,可以自豪地宣布,我完成了人生一个的小小心愿,参观了SAS总部,还有就是当面见到了SAS公司1976年的三个创始人

4J_SAS

第一个Anthony James(Jim) Barr,更多地被称为Tony,SAS系统的发明人,今年4月份在佛罗里达拜访他并长谈(右一):

Tony 

Jim Goodnight和John Sall,现在SAS公司的一、二号当家,在拉斯维加斯的SAS全球大会见到。我没有跟Jim Goodnight有任何互动,最“近”的一次是几年前,当时在SAS中国研发中心,收到唯一一份来自Goodnight的邮件,大概是群发给全球一万多号员工的。John Sall来过北京,不过没机会见过。这次在拉斯维加,在一间中型会议室,看他慢慢演示JMP,差点超时。

第四个创始人Jane负责文档,还没有见过。不过去年,就在北京,有幸见过第一本SAS user guide (A User’s Guide to the Statistical Analysis System, 1972)的作者,Dr. Jolayne (‘Jo’) Service(左二):

Jo 

Jo离开北京后,还随着美国统计学代表团参加了上海生物统计学术论坛(SBF)组织的活动。

5月 202011
 

对SAS,这套软件,这家公司,还有这套软件这家公司后面的人,我都带着很浓重的个人感情。现在,可以自豪地宣布,我完成了人生一个的小小心愿,参观了SAS总部,还有就是当面见到了SAS公司1976年的三个创始人

4J_SAS

第一个Anthony James(Jim) Barr,更多地被称为Tony,SAS系统的发明人,今年4月份在佛罗里达拜访他并长谈(右一):

Tony 

Jim Goodnight和John Sall,现在SAS公司的一、二号当家,在拉斯维加斯的SAS全球大会见到。我没有跟Jim Goodnight有任何互动,最“近”的一次是几年前,当时在SAS中国研发中心,收到唯一一份来自Goodnight的邮件,大概是群发给全球一万多号员工的。John Sall来过北京,不过没机会见过。这次在拉斯维加,在一间中型会议室,看他慢慢演示JMP,差点超时。

第四个创始人Jane负责文档,还没有见过。不过去年,就在北京,有幸见过第一本SAS user guide (A User’s Guide to the Statistical Analysis System, 1972)的作者,Dr. Jolayne (‘Jo’) Service(左二):

Jo 

Jo离开北京后,还随着美国统计学代表团参加了上海生物统计学术论坛(SBF)组织的活动。

5月 202011
 

对SAS,这套软件,这家公司,还有这套软件这家公司后面的人,我都带着很浓重的个人感情。现在,可以自豪地宣布,我完成了人生一个的小小心愿,参观了SAS总部,还有就是当面见到了SAS公司1976年的三个创始人

4J_SAS

第一个Anthony James(Jim) Barr,更多地被称为Tony,SAS系统的发明人,今年4月份在佛罗里达拜访他并长谈(右一):

Tony 

Jim Goodnight和John Sall,现在SAS公司的一、二号当家,在拉斯维加斯的SAS全球大会见到。我没有跟Jim Goodnight有任何互动,最“近”的一次是几年前,当时在SAS中国研发中心,收到唯一一份来自Goodnight的邮件,大概是群发给全球一万多号员工的。John Sall来过北京,不过没机会见过。这次在拉斯维加,在一间中型会议室,看他慢慢演示JMP,差点超时。

第四个创始人Jane负责文档,还没有见过。不过去年,就在北京,有幸见过第一本SAS user guide (A User’s Guide to the Statistical Analysis System, 1972)的作者,Dr. Jolayne (‘Jo’) Service(左二):

Jo 

Jo离开北京后,还随着美国统计学代表团参加了上海生物统计学术论坛(SBF)组织的活动。