不用Linux也可以的强大文本处理方法-CFANZ编程社区

标题党了，其实是论VIM的使用。

做生物信息分析最合适的还是Linux操作系统，所以生信宝典在最开始就推出了Linux学习系列，由浅入深的讲述了Linux学习中的关键点。

主要文章列举如下：

Linux学习-文件和目录
Linux学习-文件操作
Linux文件内容操作
Linux学习-环境变量和可执行属性
Linux学习 - 管道、标准输入输出
Linux学习 - 命令运行监测和软件安装
Linux学习-常见错误和快捷操作
Linux学习-文件列太多，很难识别想要的信息在哪列；别焦急，看这里。
[Linux学习-文件排序和FASTA文件操作](http://mp.weixin.qq.com/s?__biz=MzI5MTcwNjA4NQ==&mid=2247483823&idx=1&sn=ac62450f0475dc9513e75009f0670f45&chksm=ec0dc425db7a4
d3300f547caeaee709425dd0a41c86be18aab44d41619a4d18944289b0deaf8#rd”})
[用了Docker，妈妈再也不担心我的软件安装了 - 基础篇](http://mp.weixin.qq.com/s?__biz=MzI5MTcwNjA4NQ==&mid=2247483840&idx=1&sn=f87f6dd703cd8c109f6dc5b8d12ffb7c&chk
sm=ec0dc44adb7a4d5c9ff2422c730b1d7bb18dcb6947c0e7449f1678aee492c3193302174930b4#rd)
[Linux服务器数据定期同步和备份方式](http://mp.weixin.qq.com/s?__biz=MzI5MTcwNjA4NQ==&mid=2247483950&idx=1&sn=6f4dbc46a064638d7c95b9f99cb1de70&chksm=ec0dc7a4db7a4
eb20751dd6567b1c97be7d536671af07707eb57bb1ea7865cbde17a0226a6e0#rd)

但有时也需要在Windows下做一些操作，可能是Linux当前不可用，也可能不值得折腾。

实现Linux下复杂而又简便的操作，VIM配合正则表达式是一个合适的选择。

VIM是一款功能强大的文本编辑工具，也是我在Linux，Windows下编辑程序和文本最常用的工具。

VIM分多种状态模式，写入模式，正常模式，可视化模式。

正常模式：打开或新建文件默认在正常模式，可以浏览，但不可以写入内容。这个模式也可以称作命令行模式，这个模式下可以使用VIM强大的命令行和快捷键功能。其它模式下按ESC就可以到正常模式。
写入模式：在正常模式下按字母i (光标前插入), o (当前光标的下一行操作), O (当前光标的上一行操作)，a (光标后插入)都可以进入写入模式，就可以输入内容了。
可视化模式：通常用于选择特定的内容。

进入写入模式后，VIM使用起来可以跟记事本一样了。在写入文字时，可以利用组合键CTRL+n和CTRL+p完成写作单词的自动匹配补全，从而加快输入速度，保证输入的前后一致。

正常模式有更强大的快捷键编辑功能，把手从鼠标上解放出来。

跳转操作

正常模式下输入冒号进入更强大的命令行定制功能。

键盘操作不容易被捕获，看右下角可以得到一点信息。

VIM还有不少魔性操作，具体可以看这两个帖子：

这儿以提取生信宝典公众号中发过的原创文章的HTML代码为例子，获得原创文章的名字和链接，用以制作文章列表。

部分数据如下所示，利用正则表达式的第一步就是找规律。

不用Linux也可以的强大文本处理方法_vim

下面的动画展示了如何通过正则表达式，把这段文字只保留题目和链接，并转成Markdown的格式。

:set wrap: 折行显示
:s/"}, {"/\r/g: :开启命令行模式；s: 是替换，之前讲Linux命令时也多次提及；/作为分割符，三个一起出现，前两个/中的内容为被替换内容，后两个/中的内容为替换成的内容；这里没有使用正则表达式，直接是原字符的替换，\r表示换行符。这样把每篇文章的信息单行显示，方便后续处理。
:%s/auth_apply.*"title":"/[/：%表示对所有行进行操作；被替换的内容是auth_apply和title":"及其之间的内容(.*表示，.表示任意字符，*表示其前面的字符出现任意次)
:%s/".*"url":"/](/：从题目到url之间的内容替换掉；第一次替换时忘记了第一行中开头还有引号，结果出现了误操作，后面又退回去，手动删除特殊部分，其它部分继续匹配。
:%s/$/)/：表示在行尾($)加上), 就组成了Markdown中完整的链接形式[context](link)。
:%s/^/* /：表示在行首(^)加上*变成Markdown格式的列表

至此就完成了生信宝典公众号文章到Markdown链接的转换，可以放到菜单栏文章集锦里面方便快速查询了。

一步步的处理也有些麻烦，有没有办法更简单些呢？

首先也是把每篇文章的信息处理为单行显示，一样的模式更容易操作，去掉第一行行首不一致的部分
使用上下箭头可以回溯之前的命令，类似于Linux终端下的操作
%s/.*title":"$[^"]*$.*url":"$.*$/* [\1](\2)/c: 这个是记忆匹配，记录下匹配的内容用于替换，$和$表示记忆匹配的开始和结束，自身不匹配任何字符，只做标记使用；从左只右, 第一个\(中的内容记录为\1, 第二个\(中的内容记录为\2,以此类推。尤其在存在括号嵌套的情况下，注意匹配位置，左括号出现的顺序为准。在匹配文章题目时使用了[^"]*而不是.*，是考虑到正则表达式的匹配是贪婪的，会囊括更多的内容进来，就有可能出现非预期情况，所以做这么个限定，匹配所有非"内容。