区块链+基因检测可行?不暴露个人信息就能测序基因组!
来源 | Wired 编译 | 火火酱 责编 | Carol 出品 | 区块链大本营(blockchain_camp)
通过使用区块链技术, Nebula Genomics公司为客户设计了一种无需透露个人身份数据就能测序基因组的方法 。
当生物学研究人员晚上入睡时,他们通常会梦到基因组。你的、我的、以及我们之间“六度分离理论”所涉及的所有人(六度分离理论指“你和任何一个陌生人之间所间隔的人不会超过五个,也就是说,最多通过五个人你就能够认识任何一个陌生人。”)。
想想,所有包含在这60亿个遗传密码字母中的基因信息,正是这些基因信息让你成为了独一无二的你。只要科学家能够收集到足够的信息,那么就能找到藏在DNA中的那些摧毁致命疾病的方法。
到目前为止,全球至少有2600万人部分基因组已经被解码了——大部分是由23andMe和Ancestry这样的公司破解的,但其中很大部分是属于部分解码,只有一小部分被全部解码。
在十年前的2009年,破解一个完整的基因组会花费10万美元,如今,可能只要1000美元。业界有企业认为,到2021年,还将有可能低破100美元。那么,所有的基因组都在哪里呢?有一些声音认为,未来的测序师已经被“个人数据隐私”这个因素给吓跑了。
Nebula Genomics的首席技术官Kevin Quinn表示,在2018年Facebook/Cambridge Analytica 丑闻爆出后不久,隐私保护的大觉醒就开始了。“人们开始意识到,他们每天使用的服务并没有按照预期的方式进行,”他说,“这对基因学领域造成了很大的冲击。”
23andMe的CEO Anne Wojcicki也表示, 对隐私的担忧是DNA检测销量下滑的主要原因 。包括Nebula在内的几家新兴企业试图通过将人们的DNA放在区块链上的方式来解决这些问题。
这家新兴企业是由哈佛基因组学先驱George Church参与联合创办的,去年年初推出时,以99美元的价格提供低质量的基因组测序服务,并将数据访问控制写入公共账本中。
今年夏天,他们增加了一个“赞助测序”模型,如果客户让Nebula与医药合作伙伴共享鉴定的DNA和其他数据,那么该模型将为客户提供免费的临床级基因组检测。之后,该公司推出了该领域的第一个“匿名测序”程序,该程序旨在实现个人信息完全匿名化。
当你从23andMe或Ancestry这样的公司订购唾液采集包时,必须使用信用卡付款并输入地址。你需要用邮箱注册账号来查看结果。所有这一切都是在互联网浏览器上完成的。
并且,所有的数据都与唾液管内旋转的DNA相关联,很快就会变成一个由短字符As、Cs、Ts和Gs组成的数据文件。在公司与想要挖掘这些基因数据的研究人员或制药公司分享这些数据之前,他们必须剥离掉所有的这些个人标识。
Nebula已经做到了,但是Quinn说,顾客必须相信所有东西都能得到妥善地清理,并且不会有人把事情搞砸。匿名测序的理念从最一开始就是与个人信息相分离的。
这就是为什么匿名测序的第一步就是更为全面地清理你的电子商务习惯。Nebula建议使用加密电子邮件(由Enigmail、Mailvelope和Protonmai等公司提供的服务),并使用VPN掩盖你的浏览行为。
而且,你必须要有一个与你的名字无关的地址,PO Box在这时就可以派上用场了。安全的加密钱包或者预加载的信用卡也是必不可少的。完成所有步骤后,你就可以匿名购买并收到Nebula唾液采集包了。该公司对你的基因组进行测序,然后将其放到他们的安全云中,没有人会知道这组基因属于谁。
Quinn说:“我们这边不需要去识别它属于谁,因为它本质上已经是独立的了。以前从来没有人这么做过。”该公司表示,虽然这个流程建立在“不信任Nebula”的基础上,但它实际上是在建立信任。我知道这听起来是有点反常理,但是,这毕竟是区块链嘛。
只有一个很小的双螺旋型问题。基因组本身就是一个独一无二的标识符(从美国错综复杂的基因隐私法来看或许会有不同的看法),但是,近年来,研究人员发现,使用公共数据库(例如警察用来抓获“金州杀手”的那些数据库),仅通过DNA来识别个人身份的可能性越来越高。“如果你有60亿对碱基对,你还管别人叫什么干嘛?那本身就是一个更独特的标识符了啊,”生物信息学家Mark Gerstein(耶鲁大学生物医学数据科学中心主任)说道。
为了防止黑客从DNA基因组存储库中窃取数据,并将其与其他数据结合以重新识别人的身份,应该对数据进行加密,但是这仅仅是数据安全的第一步。
Gerstein提到,问题在于读取基因组需要将其与其他人的DNA进行比较,这也是了解其中字母含义的唯一方法。对基因组进行加密后,它也会对所有软件保持加密状态,而这些软件本会告诉你“你的祖先来自哪里”或者“你的APOE4版本是否会让你更容易患上阿尔茨海默症”。
“这个过程是需要计算才能理解的,这意味着基因组需要在服务器和数据库之间移动。在不揭示基础序列的情况下要这么做是非常棘手的。”因为基因组数据非常庞大。银行号码、纳税申报单、医疗记录等都是小文件。
所以,提供 knowledge-less storage(无知识存储)的公司可以对该数据进行加密,并提供唯一的密钥。对整个基因组进行加密的计算成本要高得多,而在加密的基因组上运行计算的成本则会更高。
但这正是Nebula下一步要做的工作。在过去的一年中,Nebula一直在与研究人员合作以构建和测试安全的计算环境,相关的出版物目前正在接受审核。
该公司计划从明年开始部署这项技术,首先使用该公司自己的基因组解释服务,该服务将向客户介绍他们的健康状况和祖先血统,最终与学术和制药研究合作伙伴合作。目前,这些计算在Nebula存储基因组数据的分布式网络上进行。
合作伙伴可以提交查询(例如,是否存在导致阿尔茨海默氏症的APOE变体),并且只能查看查询结果。只有Nebula和基因组所有者才可以访问纯文本数据。最终想要实现的功能是,即使是Nebula也将无权访问,只有基因组所有者才能访问。
尽管Gerstein是个爱吹毛求疵的人,但他面对这一进展仍感到十分激动。他说:“就开发真正的私有基因组测序和储存的选择而言,这一步意义重大。”因为他预计在不久的将来,测序将会像测血压一样成为医生办公室的家常便饭。现在将这些保护措施规范化或许有助于防止日后出现更强的反对和抵制。
科学家们,祝你们好梦!