ChinaUnix首页 > Linux时代 > 综合应用 > 正文

生物科学中的开放源码


作者:Cameron Laird(claird@phaseit.net) 2005-01-19 09:59:08 来自:IBM Linux 技术中心
目前,生物信息学和生物科学中开放源码的使用仍处于起步阶段。还有很长一段发展历程摆在我们面前。本文介绍了几个技术软件开发,明年它们会对生物信息学产生极大的影响。

有两种生物科学。对于两者而言,开放源码都很重要,只是用法不同。让我们从开发人员的角度来研究一下这两种生物科学,先听听 Edsger Dijkstra 的名言:

“程序员处于只有他才是专家的独特位置上,在这样的位置上,诸如 [10^9] 这样的巨大系数将完全阻碍我们的想象力,因此必须通过一种技术进行衔接。他必须能够按照概念性层次结构进行考虑,这些层次结构比以前曾经需要面对的单一思想要更加深入。……[一个程序] 不可避免地会带有不适宜的特性,因而可能性最小的混乱(例如一位的改变)就会导致最灾难性的后果。”
— Edsger Dijkstra,1989 年

第一种生物科学是“小型”生物科学:博物学、古生物学、湖沼生物学和其它传统研究。这里的“小型”严格意义上是指预算限制,而不是指对智力激发方面或甚至是体能挑战方面的限制。但是,为了现有目的,最好将这些生物科学与其它学科放在一起。developerWorks 最近概要分析了开放源码对一般科学和工程不断增长的贡献(请参阅本文之后的参考资料)。

另一种生物科学是在商务界或技术界中所提到的生物科学生物信息学。但是,说这话的人对此的理解通常非常狭窄:只会认为它是医药研究或偶尔会认为是农业利益。许多庞大的联合投资组织都在寻求那些生物科学,为了清晰地了解生物信息学,理解这样做的结果是很有必要的。

生物信息学前景
生物信息学的开发目前主要集中于三个广阔但偶尔重叠的类别:

  • 分子生物学 包括基因、蛋白质组学、分子建模、化学分析及相关领域。这一领域将许多有趣的科学问题组合到了基础化学的范畴中,它具有集成庞大的数据集、实时分析和创新物理设备管理的需求。

  • 医疗成像 处理 X 射线、超声波、正电子放射、核磁共振及更多诸如此类的技术,从而向放射学家和其他专家提供诊断的相关图像。这里所关注的是图像的质量、成本、提供的速度以及以足够安全和快捷的方式远程表示结果的能力。

  • 工作流管理 它本身包括两个方面:病人记录管理和获得制药批准的医药研究(包括大型医药公司(Big Pharma) — 这是称呼主要的国际医药公司的行话)。

很难夸大生物信息学项目所固有的不稳定性和混乱。这些项目需要软件架构设计师久经磨练的技能,因为生物信息学可笑地东拉西扯,什么都要:从医生潦草的字迹和展示了数十年的医疗成果到数以千计的基因中某个氨基酸替换所导致的致命的、人人可见的后果等所有的事情,这一点生物信息学比之其它,有过无不及。

要说明生物信息学和所有其它科学和工程软件工作的区别,看看生物科学公司首席法律官(CLO)们的薪水就可以了。其它部门的许多公司甚至没最高头衔的 CLO。但是,生物科学领域中的法律行为规范是如此重要,据 Clark/Bardes Consulting 公司 2002 年的调查,CLO 们的平均薪水超过了首席财务官(CFO)们的平均薪水。生物科学公司可能是所有部门中最独特的,他们侧重于知识产权(IP)保护和生物科学公司可能是所有行业中最独特的,他们侧重于知识产权(IP)保护和对法规的遵守。尽管生物科学公司在外面交流时强调他们要科学创新,但是在内部他们必须进行保守的管理,从而维护那些保护他们知识资本的狭窄的法律基础。只有当科学和技术遵守专利或其它 IP 法律,又被管理机构批准时它们才是有价值的。

这让软件工程师对生物信息学的前景感到陌生。一方面,公司能够并且愿意为已认可软件支付巨额的许可费用,并且他们为那些技术上易于实现自动化的项目花费了大量的预算。另一方面,他们又对某位不署名的研究员所形容的“缓慢、充满错误和不灵活”的商业软件表示普遍不满。有经验的研究人员在技术优良的程序被证明是可用且完全免费时不再会感到震惊。

那并意味着生物科学公司欢迎开放源码。请记住,他们对于法规细节比对价格或工程价值要敏感得多。即使做了最好的打算并且有了最好的领导能力,但是,在考虑“sex”是布尔变量还是字符变量这种问题时都会使自动化项目停顿几个月。尽管此类数据字典争论对程序员来说听上去可能毫无意义,但是它们对于管理许多医疗记录的人而言是非常实际的事情,他们是批准产品的根本人物。在这样的环境中,任何变化都是困难的。开放源码是一个变化。

有什么好消息呢?
那么,开放源码到底会不会在生物科学领域中取得进展呢?毫无疑问,会的。Cold Spring Harbor Laboratory 的研究员 Lincoln Stein 因为其基于 Perl 的成果而得到了相当多的称赞,该成果“使科学家能够访问和浏览人类基因”。O'Reilly 已经出版了两本有关 Perl 和生物信息学的书籍。蛋白质文件夹依靠 Linux 群集来构建它们所需的计算能力。其它计算分子生物学家已经自我组织起来以赞助 Biopython、BioJava 和 BioRuby 项目网站。一些特定公司的开发团队会在至关重要的编程任务中使用 Postgres、Tcl、Octave 和其它高层次的开放源码技术。

可能同样重要的是,IBM 和其他一些生物信息学的有远见的参与者好象“得到了有关标准的要旨”。IBM 允许公众非商业用途地使用其研究人员开发的生物信息学工具。两三年前公司就任命了 Caroline Kovac 作为其生命科学部门的总经理。Kovac 博士因其对互操作信息基础设施协会(Interoperable Informatics Infrastructure Consortium,I3C)的支持,以及对“这些数据库任何一个都不能与另一个进行交谈……因此研究人员必须通过敲击键盘来完成交谈”这一当前状况的不满而闻名。

主要的国际医药公司仍然对开放源码表示怀疑或怀有成见。它们的文化全都是有关 IP 保护的。另一方面,保存记录的费用是如此可怕 — 在临床试验中,每位参与者通常都要花费大约 $20,000,因此大型医药公司开始接受基于标准的开放源码所提供的简化方式。

象 IBM 这样的 I3C 成员的一个深思熟虑的目标是区别 IP 所有权的等级。大型医药公司拥有分享基本科学数据的经验,同时又小心翼翼地保护着产品详细信息和文档。I3C 将自身转换成了类似的角色:基础结构或中间件可以是基于标准和开放源码的,而公司所依赖的专利程序是建立在这个基础结构上的。

适时的技术突破促进了许多公司向开放源码转变。越来越多的开发人员意识到了在对分子数据进行的编程中普遍存在与 Web 的冲突,即 Stein 所谓的“中世纪的折磨”。通过 Web 服务方法进行的开发非常令人满意,而且也非常健壮。对计算群集和网格的理解也已“转了方向”,这使得即使在普通的研究预算中好象也可以提供超级计算功能。Web 服务和集群中的许多领导人物都来自开放源码项目。

未知好处
但是,除了这种进展之外,开放源码还为生物科学提供了大型医药公司刚刚才意识到的三个显著的好处:安全性、策略所有权和可扩展性。

对于大型医药公司而言,安全性至关重要。对医疗和研究数据处理不当所受的罚款对公共记录会有重大影响。据 Perseid Software Ltd. 的总裁 Bernard P. Wess Jr. 观察,“计算机行业在质量控制方面做得很差”。到目前为止,生物科学界已通过应用更多的专利对此做出了反应,如果发现某人盗用专利,则对他提起诉讼。但是,有许多证据表明,在交付高质量和特殊的高安全性程序方面,开放源码至少与专利供应商一样优秀。在近来的一些投票选举活动和国家安全事务中,已经提出了专利程序是否永远都值得敏感事件信任的问题。人们希望在明年开展一些引人注目的活动,因为生物科学公司采取了强有力的措施来改进其数据的安全性。

大型医药公司的 IP 文化一直都被看成是开放源码的障碍。实际上,在与保守的生物科学公司交流开放源码的益处时已经发生过了很多失败。但是,最终其中的某个公司会改变态度,并重视开放源码对其业务策略的支持。这是 Eric Raymond 经常阐述的论点:为什么一个公司要将其策略性资产委托给一个利益如此有分歧的供应商呢?从这个角度来说,开放源码是避免供应商反复无常的理想方法。正如 Raymond 指出的:“如果您业务的关键基础结构依赖于一个封闭源码软件,您就无法控制您的业务 — 您根本不知道其中有什么!开放源码为您提供了收回控制的方法。”

在生物科学领域中,对于开发人员的最后一项挑战是传播可能性。生物科学公司中的大多数研究人员、医师和管理者太注重于他们当前的职责,以致于不会重视普及自动化的时机。他们至多会关注将数据从一个地方移到另一个地方,而不会允许他们自己在可靠且安全地链接了数据流时有要求质量改进的可能。许许多多生物科学家都被委任解决他们所面临的某个问题。即使他们在信息技术(IT)方面投入了大量的工时和资金,但是他们还是缺乏软件工程师当中常用的“重用文化”。他们的 IT 生产力很低。但是,更糟糕的是,他们可能会因为缺乏正确专门化的、可扩展的和开放的软件而错失影响更大规模的数据和理论模式的机会。

另一个仍然鲜为人知的可能是,开放源码具有补充 IP 保护和使用专利软件的能力。基于标准的开放源码软件处于一个非常独特的地位,能够增强由专利软件衍生的价值 — 当开放源码这个“粘合剂”将现有的程序和数据与其它过程和资源组合起来的时候,它们会变的更有价值。只有当开放源码软件提高了实验室 IT 操作的质量,并且使 IP 和“商品”数据之间的界限更为明显时,真正的 IP 安全性才会得以发展。

结束语
生物科学是一门特殊的科学。它花费在研究中的财力、人力和时间规模是其它科学所无法匹敌的。它的法规文化和 IP 保护比其它科学领域更接近于法律工作。

到目前为止,对于生物科学家而言,开放源码通常是以一种新事物,或者(更糟糕的)是以威胁 IP 保护的面目出现的。但是,在过去的几年里,在集群、基因数据管理、Web 发布方面取得的坚实成就以及特定于“垂直”应用程序方面的成绩,使得开放源码成为一种重要的技术选择。

大型医药公司和其它生物科学公司刚刚开始意识到开放源码可以如何系统地削减费用、改进安全性、使其员工将注意力从专利的 IT 技术转移回它们的“核心竞争力”,甚至更好地促进科学。我们正处于引人注目的传教运动中,它向人们传授更好的开放源码 IT 方法以支持生物科学的目标。最终的转变可能在于参与者开始理解了基于标准的开放源码可以增强生物科学的基本价值。对于开放源码生物信息学而言,这些是激动人心的时刻。

关于作者
Cameron 是 Phaseit, Inc. 的全职顾问,他经常就开放源码和其它技术主题撰文和发表演讲。可以通过
claird@phaseit.net 与他联系。


(编辑:zhou_rm)


投稿】【Linux论坛】【关闭

Linux文档搜索
关键词