Linux下快速对文本去除重复行

首先介绍两个命令sort和uniq，一个是排序一个是去重，由于uniq只能对临近的行去重，所以我们的思路就是先去重然后再去重，下面先了解下sort和uniq。

sort：

sort [-bcdfimMnr][-o<输出文件>][-t<分隔字符>][+<起始栏位>-<结束栏位>][--help][--verison][文件]

参数说明：

-b 忽略每行前面开始出的空格字符。
-c 检查文件是否已经按照顺序排序。
-d 排序时，处理英文字母、数字及空格字符外，忽略其他的字符。
-f 排序时，将小写字母视为大写字母。
-i 排序时，除了040至176之间的ASCII字符外，忽略其他的字符。
-m 将几个排序好的文件进行合并。
-M 将前面3个字母依照月份的缩写进行排序。
-n 依照数值的大小排序。
-o<输出文件> 将排序后的结果存入指定的文件。
-r 以相反的顺序来排序。
-t<分隔字符> 指定排序时所用的栏位分隔字符。
+<起始栏位>-<结束栏位> 以指定的栏位来排序，范围由起始栏位到结束栏位的前一栏位。

uniq：

uniq [-cdu][-f<栏位>][-s<字符位置>][-w<字符位置>][--help][--version][输入文件][输出文件]

-c或--count 在每列旁边显示该行重复出现的次数。
-d或--repeated 仅显示重复出现的行列。
-f<栏位>或--skip-fields=<栏位> 忽略比较指定的栏位。
-s<字符位置>或--skip-chars=<字符位置> 忽略比较指定的字符。
-u或--unique 仅显示出一次的行列。
-w<字符位置>或--check-chars=<字符位置> 指定要比较的字符。
[输入文件] 指定已排序好的文本文件。如果不指定此项，则从标准读取数据；
[输出文件] 指定输出的文件。如果不指定此选项，则将内容显示到标准输出设备（显示终端）。

在生物信息注释处理中会遇见一些重复的行，如果要去除这些重复的行那么用上面两个命令组合则最有效：

sort anno.txt | uniq >unique_anno.txt

思路：先对anno.txt排序然后通过管道利用uniq去重并重定向到unique_anno.txt中，很方便。

考文章：

1.https://www.runoob.com/linux/linux-comm-sort.html

2.https://www.runoob.com/linux/linux-comm-uniq.html

阅读: 5,541

Omics - Hunter

python下调用conda环境

威尔逊置信区间(Wilson confidence intervals )计算

发表回复取消回复

Omics - Hunter

Linux下快速对文本去除重复行

python下调用conda环境

威尔逊置信区间(Wilson confidence intervals )计算

发表回复 取消回复

发表回复取消回复