自从AlphaGo出了围棋界的No.1,“智能”的潜力被甚广而周知,特别是在对于大量的重复性工作,写出个“算法”让电脑“跑完”,得出结论的结果说不定比人强。科学家不仅有充足大的脑洞,还有着非凡的执行力。这次是生物学者,他们糅合了信息学科的思维,发明者了基因测序的新方法。
日前,一篇取名为《基于信息理论来修正错误的高准确度荧光产生DNA测序方法》的论文在《大自然·生物技术》上在线公开发表。研究者来自北京大学黄岩谊教授率领的团队。
“这个设计很精妙,”东南大学教授陆祖宏说道,“也许在信息科学里是‘小伎俩’,但在生物学研究中是一种思维方式的突破,而且奏效了。”测序精准是“王道”和体育界的“更加慢、更高、更加近”类似于,基因测序界的“金标准”是“更加慢、更长、更加准确、还不贵”。大名鼎鼎的“人类基因组计划”基于1代测序技术,耗时十余年测得一套原始的人类基因组密码,而利用现有的2代测序技术,这个时间可以延长到半天内。
“2代测序技术,又叫高通量测序技术,”陆祖宏讲解,它需要在一个生物芯片上一次已完成上亿个反应。“每个反应一次测量一个碱基。”生物芯片上的反应单元十分小,几平方微米的芯片上不会包括1000个待测DNA单链分子,在DNA聚合酶(促使单个碱基单体)的起到下,单个碱基不会按照筛选规律制备有数DNA分子的互补链,每次制备一个,同时释放出来荧光。
有所不同的碱基(A、T、C、G)具有有所不同的荧光,检测到荧光的有所不同就能辨别是什么碱基,进而加载DNA。然而,每个单元中1000个分子的制备很难实时,“这个分子制备到99个时,那个分子有可能制备到101个,这样捕捉到的荧光波长将不会有所差异,可信度明显上升,”陆祖宏说道,因此,2代基因测序仪的单次“读长”目前的无限大在200个碱基对(bp)。
通过DNA二端测序能做400个bp,但很难进一步提高。读书得越宽,测得序列的正确性就不会就越较低。
在人体基因测序领域,这是一对相差悬殊的数字:30亿、200。前者是人类基因组的碱基对数量,后者是目前测序准确度最低(99%)的2代基因测序仪的单次“读长”。可见以200为单位已完成目标DNA的测序,不可避免不会导致大量的误差。
测序技术正在向着符合“金标准”的路上大大前进,而此次我国学者公开发表的ECC(数据流编码)测序法正是对现有手段的校正和补足。“软件推论”调补硬件严重不足生物学的研究方法仍然是所见即所得,这次引进了信息论的方法,利用校验信息、通过计算出来得出结论精确结论,陆祖宏指出,ECC测序法是对上面提及的2代测序方法的完备,其基本原理与2代测序方法相符,令人推崇的是其超越思维定势,包抄计算出来出有碱基信息。打个比方,要答案“甲乙丙丁分别住在哪个房子里,”之前的方式是必要门口看,ECC是通过测量获得一组逻辑题,诸如红房子在蓝房子的右边,红房子的左边;朱房子的主人来自香港,而且他的房子不出最左边,爱吃比萨的人住在爱喝矿泉水的人的隔壁……等等提醒,通过计算出来最后辨别出有结论。
“之前一个一个测,现在是一群一群测,每次取样量一样,但是取样方法有所不同了,单次看取得的信息更加多,”陆祖宏说道,校验信息可以相校验,将“精准”的希望更好地让“软件推论”去分担,填补酶的皆一性、信号捕猎等硬件上无法防止的严重不足。资料表明,ECC编码和解码策略已被广泛应用在信息通讯和存储等其他领域中,并被证实可以有效地检测和缺失数据传输或存储时再次发生的错误。
此次研究团队在测序技术中首次引进ECC,并自律制备了低错误率的荧光再次发生底物,二者融合在实验室搭起的原理样机上取得了单端测序多达200碱基读长无错误的实验结果。
本文关键词:威9国际真人,中国,科学家,引入,信息论,刷新,基因,测序
本文来源:威9国际真人-www.cptouxiang.com