jcmDNAtools:基于pythonpandas的实用程序用于分析高通量DNA测序数据源码

conducive_15687 23 0 ZIP 2021-05-02 02:05:30

DNA分类器我将NLP分类器代码与生物信息学代码结合在一起,以识别参考基因组中重复出现的DNA图案,并训练神经网络在两个样本之间进行分类。 1.learnMotifs.py研究了两个参考基因组并确定了指定长度的前100个重复基序 2.tokenizeFastQ.py适用于fastA或fastQ原始数据格式,并使用1中的主题对其进行标记化 3.trainDNAclassifier.py接受来自2的标记化数据,并训练神经网络在两者之间进行分类。这提供了程序上可扩展的数据管道,可以直接从Illumina机器自动识别微生物样品。表现: 在该过程的最后,脚本在第一次尝试时产生了100%准确度的网络预测。不过,这是在截短的样本上进行的,总共只进行了50次,以节省时间。因此,这里可能会过度拟合。产生的神经网络ecoli.paerug.h5将大肠杆菌与铜绿假单胞菌的原始样品区分开来。特征

文件列表

jcmDNAtools-master.zip (预估有个15文件)

jcmDNAtools-master

paerugmotifs1020.csv 3KB

0B.countingmotifs.png 1.08MB

1.making_motifs.png 1.24MB

0D.trainingClassifier.png 1.27MB

0C.tokenizingDNA.png 1.06MB

2.tokenizeFastQ.py 4KB

3.trainDNAClassifier.py 5KB

0A.making_motifs.png 1.24MB

ecoli.paerug.h5 9.73MB

README.md 5KB

3.tokenizingDNA.png 1.06MB

ecoli.paerug.25k.csv 28KB

2.countingmotifs.png 1.08MB

1.learnMotifs.py 3KB

ecolimotifs1020.csv 3KB

用户评论

暂无评论

yap用于处理高通量测序数据的管道源码

YAP(又一条管道) 还有一条管道用于处理高通量测序数据的管道。安装操作系统支持: 苹果系统 Linux Windows-WSL 代码状态仅检查程序和读取程序集功能有效。其他一切都还坏了。

14 2021-04-08
高通量测序DNA样品制备

Illumina官方文库制备方法，讲述了如何将基因组DNA制备成适用于二代测序的library样品。

36 2019-09-06
高通量DNA测序数据的生物信息学方法

高通量测序技术产生的DNA序列数据长度较短,而且数据量非常巨大。分析了高通量测序环境下大数据的挑战和机遇,总结并讨论了数据压缩、宏基因组数据序列拼接、宏基因组数据序列分析方面的算法和工具等研究成果。最

27 2021-04-18
高通量测序数据统计分析

Statistical analysis of high-throughput sequencing data

29 2019-06-26
bioinfo_utils用于高通量测序数据分析的脚本集源码

该存储库引用了一组通用的生物信息学实用程序,我发现这些实用程序在过去几年中适用于我的工作。某些脚本可能未针对效率进行优化。它反映了我的自我学习过程以及随着时间的变化。 :) 从其他地方导入的Per

16 2021-02-17
论文研究高通量DNA测序数据的多任务并行压缩算法.pdf

研究采用任务并行的方法，对FastQ格式文件的压缩程序DSRC（DNAsequencereadscompression）进行了加速。这一任务并行算法将DSRC分为数据读入和数据压缩两个独立的任务，而后

32 2019-09-21
htslib高通量测序数据格式的C库源码

HTSlib是用于访问常见文件格式(例如的统一C库的实现,该文件格式用于高通量测序数据,并且是和使用的核心库。 HTSlib仅取决于。已知与gcc,g ++和clang兼容。 HTSlib实现了通

30 2021-04-08
fgbio用于处理基因组和高通量测序数据的工具源码

fgbio 一套用于分析基因组数据的工具,重点关注下一代测序。本自述文档主要面向开发人员/贡献者以及试图从源代码构建项目的人员。可在上找到详细的用户文档,包括和。可以在找到详细的开发人员文档。

99 2021-02-15
高通量DNA合成测序化学研究进展

高通量DNA合成测序化学研究进展，陈婧，肖鹏峰，高通量DNA测序是近年来发展起来的革命性技术，大大推动了快速、廉价获取基因组信息的能力，进而对生命科学产生了深刻的影响。测序

20 2020-07-17
高通量测序数据序列格式规范GB T358902018

GB/T 35890-2018 高通量测序数据序列格式规范提供国家标准《GB/T 35890-2018 高通量测序数据序列格式规范》电子版的,同时提供更多高通量测序,大数据相关的资料的查询与下载。

29 2020-08-11

jcmDNAtools:基于pythonpandas的实用程序用于分析高通量DNA测序数据 源码

文件列表

用户评论

推荐下载

jcmDNAtools:基于pythonpandas的实用程序用于分析高通量DNA测序数据源码