Linux学习-文件排序和FASTA文件操作

环境变量的补充

PATH只是众多环境变量中的一个变量,用于存储可执行文件所在的目录,以便在用户输入命令时可以查询的到。尤其是自己写的脚本或安装的程序,系统不会知道它们在哪个路径下,需要我们去提供给系统这些新的路径,学名叫设置环境变量。

此外常用到的环境变量还有LD_LIBARY_PATH: 指定动态链接库 (so文件)的位置,一般在安装软件出错时会用到;PYTHONPATH: 指定Python的安装包的路径;PERL5LIB: 指定perl的安装包的路径。

设置环境变量要注意2点:1. 设置新的环境变量时一般要包含原始的环境变量,不能覆盖;2. 注意自己的目录和系统环境变量的目录的顺序,想让哪个先被找到,就先放哪个。

文件排序

seq: 产生一系列的数字; man seq查看其具体使用。我们这使用seq产生下游分析所用到的输入文件。

# 产生从1到10的数,步长为1ct@ehbio:~$ seq 1 1012345678910# 产生从1到10的数,步长为1,用空格分割ct@ehbio:~$ seq -s ‘ ‘ 1 101 2 3 4 5 6 7 8 9 10# 产生从1到10的数,步长为2# 如果有3个数,中间的数为步长,最后一个始终为最大值ct@ehbio:~$ seq -s ‘ ‘ 1 2 101 3 5 7 9# 还记得前面提到的标准输入和标准输出吧# 后台回复 标准输入 查看ct@ehbio:~$ cat <(seq 0 3 17) testct@ehbio:~$ cat test 036912153915

sort: 排序,默认按字符编码排序。如果想按数字大小排序,需添加-n参数。

# 可能不符合预期的排序,系统首先排0,然后排1, 3, 6, 9ct@ehbio:~$ sort test012151533699# 按数字大小排序ct@ehbio:~$ sort -n test033699121515

sort -u: 去除重复的行,等同于sort | uniq。

ct@ehbio:~$ sort -nu test03691215

sort file | uniq -d: 获得重复的行。(d=duplication)

ct@ehbio:~$ sort -n test | uniq -d3915

sort file | uniq -c: 获得每行重复的次数。

# 第一列为每行出现的次数,第二列为原始的行ct@ehbio:~$ sort -n test | uniq -c  1 0  2 3  1 6  2 9  1 12  2 15# 换一个文件看的更清楚ct@ehbio:~$ cat a> b> c> b> a> e> d> a> END# 第一列为每行出现的次数,第二列为原始的行ct@ehbio:~$ sort test2 | uniq -c      3 a      2 b      1 c      1 d      1 e# 在执行uniq操作前,文件要先排序,不然结果很诡异ct@ehbio:~$ cat test2 | uniq -c      1 a      1 b      1 c      1 b      1 a      1 e      1 d      1 a

整理下uniq -c的结果,使得原始行在前,每行的计数在后。

awk是一个强大的文本处理工具,其处理数据模式为按行处理。每次读入一行,进行操作。OFS: 输出文件的列分隔符 (output file column separtor);FS为输入文件的列分隔符 (默认为空白字符)。awk中的列从第1到n列,分别记录为$1, $2 … $n。BEGIN表示在文件读取前先设置基本参数;与之相对应的是END,只文件读取完成之后进行操作。不以BEGIN, END开头的{}就是文件读取、处理的部分。

# 管道符还记得吧,后台回复 管道 可查看# awk的操作就是镀金上一步的结果,去除多余的空白,然后调换2列ct@ehbio:~$ sort test2 | uniq -c | awk ‘BEGIN{OFS=””;}{print $2, $1}’a    3b    2c    1d    1e    1

对两列文件,安照第二列进行排序, sort -k2,2n。

# 第二列按数值大小排序ct@ehbio:~$ sort test2 | uniq -c | awk ‘BEGIN{OFS=””;}{print $2, $1}’ | sort -k2, 2nc    1d    1e    1b    2a    3# 第二列按数值大小排序# 第二列相同的再按第一列的字母顺序的逆序排序 (-r)# 注意看前3行的顺序与上一步结果的差异ct@ehbio:~$ sort test2 | uniq -c | awk ‘BEGIN{OFS=””;}{print $2,$1}’ | sort -k2,2n -k1,1re    1d    1c    1b    2a    3

FASTA序列提取

生成单行序列FASTA文件,提取特定基因的序列,最简单的是使用grep命令。

grep在前面也提到过,以后还会经常提到,主要用途是匹配文件中的字符串,以此为基础,进行一系列的操作。如果会使用正则表达式,将会非常强大。正则表达式版本很多,几乎每种语言都有自己的规则,本文档不会展开,用到哪个提哪个。

# 生成单行序列FASTA文件ct@ehbio:~$ cat >SOX2> ACGAGGGACGCATCGGACGACTGCAGGACTGTC> >POU5F1> ACGAGGGACGCATCGGACGACTGCAGGACTGTC> >NANOG> CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT> ENDct@ehbio:~$ cat test.fasta >SOX2ACGAGGGACGCATCGGACGACTGCAGGACTGTC>POU5F1ACGAGGGACGCATCGGACGACTGCAGGACTGTC>NANOGCGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT# grep匹配含有SOX2的行# -A 1 表示输出的行中,包含匹配行的下一行 (A: after)ct@ehbio:~$ grep -A 1 ‘SOX2’ test.fasta >SOX2ACGAGGGACGCATCGGACGACTGCAGGACTGTC# 也可以使用AWK# 先判断当前行是不是 > 开头,如果是,表示是序列名字行,替换掉大于号,取出名字。# sub 替换, sub(被替换的部分,要替换成的,待替换字符串)# 如果不以大于号开头,则为序列行,存储起来。# seq[name]: 相当于建一个字典,name为key,序列为值。然后就可以使用name调取序列。ct@ehbio:~$ awk ‘BEGIN{OFS=FS=””}{if($0~/>/) {name=$0; sub(“>”, “”, name);} else seq[name]=$0;}END{print “>SOX2”; print seq[“SOX2”]}’ test.fasta>SOX2ACGAGGGACGCATCGGACGACTGCAGGACTGTC

多行FASTA序列提取要麻烦些,一个办法就是转成单行序列,用上面的方式处理。

sed和tr都为最常用的字符替换工具。

ct@ehbio:~$ cat >SOX2> ACGAGGGACGCATCGGACGACTGCAGGACTGTC> ACGAGGGACGCATCGGACGACTGCAGGACTGTC> ACGAGGGACGCATCGGACGACTGCAGGAC> >POU5F1> CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT> CGGAAGGTAGTCGTCAGTGCAGCGAGTCC> >NANOG> ACGAGGGACGCATCGGACGACTGCAGGACTGTC> ACGAGGGACGCATCGGACGACTGCAGG> ACGAGGGACGCATCGGACGACTGCAGGACTGTC> ACGAGGGACGCATCGGACGACTGCAGGACTGT> END# 给>号开头的行的行尾加个TAB键,以便隔开名字和序列# TAB键不可见,直接看看不大# ()表示记录匹配的内容,1则表示()中记录的匹配的内容# 后面我们专门讲sedct@ehbio:~$ sed ‘s/^(>.*)/1/’ test.fasta >SOX2    ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC>POU5F1    CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGTCGGAAGGTAGTCGTCAGTGCAGCGAGTCC>NANOG    ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGT#使用cat -A 可以显示文件中所有的符号# ^I 表示tab键# $表示行尾ct@ehbio:~$ sed ‘s/^(>.*)/1/’ test.fasta | cat -A>SOX2^I$ACGAGGGACGCATCGGACGACTGCAGGACTGTC$ACGAGGGACGCATCGGACGACTGCAGGACTGTC$ACGAGGGACGCATCGGACGACTGCAGGAC$>POU5F1^I$CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT$CGGAAGGTAGTCGTCAGTGCAGCGAGTCC$>NANOG^I$ACGAGGGACGCATCGGACGACTGCAGGACTGTC$ACGAGGGACGCATCGGACGACTGCAGG$ACGAGGGACGCATCGGACGACTGCAGGACTGTC$ACGAGGGACGCATCGGACGACTGCAGGACTGT$# 把所有的换行符替换为空格# tr这个命令,前面提到过,若想不起来 `man tr`查看# 主意第二个参数,引号内为空格。ct@ehbio:~$ sed ‘s/^(>.*)/1/’ test.fasta | tr ” ‘ ‘>SOX2     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC >POU5F1     CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC >NANOG     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT # 把最后一个空格替换为换行符ct@ehbio:~$ sed ‘s/^(>.*)/1/’ test.fasta | tr ” ‘ ‘ | sed -e ‘s/ $//’>SOX2     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC >POU5F1     CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC >NANOG     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT# 把  ‘ >’替换为换行符 注意被替换的是 空格+大于号# 当连用多个替换命令时,使用-e 隔开ct@ehbio:~$ sed ‘s/^(>.*)/1/’ test.fasta | tr ” ‘ ‘ | sed -e ‘s/ $//’ -e ‘s/ >/>/g’>SOX2     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC>POU5F1     CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC>NANOG     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT# 把所有的空格替换掉ct@ehbio:~$ sed ‘s/^(>.*)/1/’ test.fasta | tr ” ‘ ‘ | sed -e ‘s/ $//’ -e ‘s/ >/>/g’ -e ‘s/ //g’>SOX2    ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC>POU5F1    CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGTCGGAAGGTAGTCGTCAGTGCAGCGAGTCC>NANOG    ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGT# 把TAB键转换为换行符ct@ehbio:~$ sed ‘s/^(>.*)/1/’ test.fasta | tr ” ‘ ‘ | sed -e ‘s/ $//’ -e ‘s/ >/>/g’ -e ‘s/ //g’ -e ‘s///g’ >SOX2ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC>POU5F1CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGTCGGAAGGTAGTCGTCAGTGCAGCGAGTCC>NANOGACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGT

或者简单点,直接用前面的awk略微做下修改。

# 差别只在一点# 对于单行fasta文件,只需要记录一行,seq[name]=$0# 对于多好fasta文件,需要把每一行序列都加到前面的序列上,seq[name]=seq[name]$0ct@ehbio:~$ awk ‘BEGIN{OFS=FS=””}{if($0~/>/) {name=$0; sub(“>”, “”, name);} else seq[name]=seq[name]$0;}END{print “>SOX2”; print seq[“SOX2”]}’ test.fasta>SOX2ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC

郑重声明:本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系管理员(admin#wlmqw.com)删除。
(0)
用户投稿
上一篇 2022年6月14日
下一篇 2022年6月14日

相关推荐

  • 电脑pin码是什么,电脑pin怎么设置

    电脑开机之后,明明输入的密码没错,但是页面却还是提示密码错误,这到底是怎么一回事呢?看清楚之后才发现,它要求输入的是pin码,怪不得开机失败呢。关于电脑登录密码,有部分朋友会尝试设…

    2022年6月29日
  • 从大魔王到大飞老师:造神运动和电竞饭圈文化之研究

    《艾尔登法环》——干货攻略汇总 作者:小黑盒——Aoie-ze 可能你不玩LOL,但你应该知道FAKER。 从2013,2015到2016三年,李相赫带领的SKT战队一共夺得LOL…

    2022年6月29日
  • 2022年破壁机怎么选?静音、易操作、高颜值,一个都不能少

    什么是破壁机?破壁机其实是个“伪命名”,号称是可以打破细胞壁,并让营养成分都释放出来。当然,个人认为,打破细胞壁应该属于商家宣传需要的说法,但相比豆浆机、料理机和榨汁机,食材的细腻…

    2022年6月29日
  • 罗永浩谈收购苹果,网友:想法挺好,万一实现了呢

    7月10日,罗永浩在交个朋友直播间中谈到收购苹果的路径。 他表示,这个公司市值已一万亿美元了,大概率是我们把下一代平台做好做成,他们日渐衰落,我们日渐崛起,到了一个形势逆转的转折点…

    2022年7月13日
  • 这么好用的三星多屏联动功能,竟然还有人不知道?

    哈喽啊 各位小伙伴们, 又到了有趣且实用的三星功能分享时间啦~ 在分享今天的功能之前, 想问一下大家在日常生活中, 是用什么样的方式进行手机与 平板/电脑之间的屏幕共享的呢~ 很多…

    2022年6月29日
  • linux centos 系统盘文件系统损坏-已解决

    当我们使用的Linux虚拟机(云服务器/vps)磁盘出现xfs文件系统损坏时,该如何进行修复? xfs格式文件系统损坏,是运维常见的一个场景,经常发生在强制重启、异常关机、软件冲突…

    2022年8月11日
  • 平替红外遥控,旧家电变智能 向日葵智能远控遥控器真好玩

    前段时间,表妹家喜迁新居。感受了她家的智能家居带来的舒适生活,只能说非常羡慕,让我都有了追求智能家居的冲动。不过家中的一些家电,虽说谈不上智能,但是使用起来还是没有问题的。如果全部…

    2022年6月16日
  • 怎么识别iPhone翻新机,注意这六点

    有歌曲的翻唱和电影的翻拍。这股“翻盘”风也刮到了手机行业,翻新机出现了。 iPhone因为价格高,翻新后利润空间大,有时候真的防不胜防。 什么是翻新机? 翻新机是将回收的二手手机用…

    2022年8月15日
  • 你还在空腹吃这4种食物吗?空腹进食也有顺序→

    日常生活中 我们总能听到许多“空腹的禁忌” 空腹不能喝茶、喝咖啡、喝酒? 空腹不能吃香蕉? 空腹不能吃柿子? 真相究竟是什么呢? 快跟小编一起来了解 空腹不能喝茶、喝咖啡、喝酒? …

    2022年8月26日
  • 时间的定义

    空间中的耘微子星(暗物质团)、耘子星(白洞)、降逆转星(超新星)、浮子星(黑洞)、降转星(新星)、磁子星(类恒星)、退化星(白矮星)、凝变星(红巨星)、恒星、裂变衰变质子星、裂变中…

    2022年8月18日

联系我们

联系邮箱:admin#wlmqw.com
工作时间:周一至周五,10:30-18:30,节假日休息