生物信息学基础教程第4讲:正则表达式教程.ppt
《生物信息学基础教程第4讲:正则表达式教程.ppt》由会员分享,可在线阅读,更多相关《生物信息学基础教程第4讲:正则表达式教程.ppt(38页珍藏版)》请在麦多课文档分享上搜索。
1、生物信息学基础教程 第4讲:正则表达式教程,正则表达式与模式匹配,本节内容,正则表达式 正则表达式的定义与表示方法 正则表达式中的元字符(metacharacter) VIM编辑器 grep命令 sed编辑器 awk工具,正则表达式,所谓正则表达式(regular expression, RE), 指的是符合某种模式的字串,常用于从文件中或者字符串中查找和替换某些符合某种规则的字串,VIM教程,linux下最常用的文本编辑器,VIM编辑器,三种模式:各种模式之间切换 从命令行模式到插入模式:按下i键 从命令行模式到附加模式:按下a键 返回命令行模式:按下ESC键 退出编辑 保存并退出:在命令行
2、模式按下:wq 不保存退出:在命令行模式按下:q! 保存:在命令行模式按下:w 另存为其他文件名:按下:w filename,VIM编辑功能,光标跳到文件头:命令行模式下按2下g 光标跳到文件尾:按下:$ 光标跳到行首:按下 光标跳到行末:按下$ 跳到100行:按下100g,VIM查找功能,底行模式下输入/pattern/回车,对应符合pattern的文本就会显示为高亮底行模式下输入:m,n/pattern/,就会在第m行到第n行查找pattern并高亮显示,grep教程,正则表达式的应用,grep简介,是Global search regular expression (RE) and Pr
3、int out the line的缩写强大的文本搜索工具,使用正则表达式搜索文本,并打印匹配的行在一个或者多个文件中搜索字符串模式,搜索的结果输出到屏幕,不影响文件内容,grep用法,grep option pattern input_files,常用grep命令选项,grep正则表达式元字符,练习题:这些命令都能干啥?,ls l | grep a grep test d* grep test aa bb cc grep a-z5 aa grep w(es)t.*1 aa grep n datafile grep 4$ datafile grep 5 datafile grep .5 data
4、file grep wesn datafile grep A-ZA-Z A-Z datafile grep ss* datafile grep a-z9 datafile grep datafile,sed教程,非交互性文本编辑,sed简介,首先用which sed查看一下sed的位置 一个非交互性文本编辑器,编辑文件或标准输入导出的文件拷贝 sed可以随意编辑小文件或者大文件 一次性处理所有改变,高效率 通过行号和正则表达式指定需要编辑的行,sed用法,从文件的一个文本行或标准输入中读取数据,并将其拷贝到一个编辑缓冲区 读取命令行或者脚本的第一条命令,并用该命令查找模式或定位行号并编辑,重复
5、过程直到命令结束 sed option sed_command input_file sed option f sed_script_file input_file sed_script_file option input_file,sed命令的选项,sed定位行号的方法,基本sed编辑命令,练习题:这些命令能干什么?,AWK教程,文件模式提取教程,AWK简介,Linux下的awk有三个版本:awk、nawk、gawk,一般所说的awk是指/bin/awk,也就是gawk (GNU awk) awk的功能: 基于指定规则从文件或者字符串中分解抽提信息 基于指定的规则输出数据,awk的三种执行方
6、式,awk option awk_script input_file1 input_file2 将awk_script放入脚本文件并以#!/bin/awk f 作为首行,并赋予该脚本可执行权限,然后在shell下调用该脚本名称执行awk_script的内容:awk_file input_file将所有awk_script放入一个单独的脚本文件,然后用awk f awk_file input_file(s)执行脚本,awk脚本的组成,可由一条或多条awk_cmd组成,两条awk_cmd之间一般以NEWLINE分割 awk_cmd由两部分组成:awk_pattern actions awk命令的一
7、般形式 awk BEGIN actions awk_pattern1 actions awk_patternN actions END actions input_file 其中BEGIN 和END模块是可选的,awk脚本的运行机制,如果存在BEGIN区块,执行其中的actions 从输入文件中读取一行,称为读入一条记录 将读入的记录按照分隔符(FS/IFS)分割为多个字段,依次为$1,$2,., 而$0表示整条记录。 将当前输入记录与awk_pattern相比较,如果匹配则执行actions,如果不匹配则跳过读入下一条记录,重复执行3,4,直到文件尾 awk把输入文件的数据读入内存,然后操作
8、内存中的输入数据副本,不会修改输入文件的内容 awk总是输出到标准输出,如果需要输出到文件,可采用重定向,awk_pattern的格式,正则表达式 /regexp/ 通用的正则元字符: $ . | () * +是awk特有的元字符,匹配其前的单个字符一次以上 ?也是awk特有的元字符,匹配其前的单字符0/1次 举例:awk /*$0.0-90-9.*/ input_file 布尔表达式 “=”,“”, “/regexp/”,“&”, “|” 举例 awk $3 /d/ input_file awk ($1 10) print “ok“ input_file,actions的格式,actions
9、是对awk读取记录进行的操作 actions由一条或多条语句或命令组成,语句之间用分号分隔,awk命令,print “$1= ”, $1 printf:与c语言的printf类似 next:读取下一条记录并处理 nextfile:读取文件列表的下一个文件 exit:awk停止执行并跳出。如果有END存在,awk会执行END的actions,awk语句,赋值语句 awk BEGIN x=1 ; y=3 ; x=y ; print “x=“ x “ ; y=“ y awk BEGIN x=3 ; x+=2 ; y=x+2 ; print “x=“ x “ ; y=“ y 流程控制结构 if (co
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 基础教程 正则 表达式 教程 PPT
