数据科学家的命令行技巧
全局搜索正则表达式并输出,或使用grep;可能是最知名的命令,并且有很好的理由。 Grep具有很强的能力,特别是在大型代码库中查找方法。在数据科学领域,它充当了其他命令的改进机制。但其标准用法也很有用。
对包含word/pattern的行数进行计数
Grep使用or运算符- |来检索多个值.
有用的选项
大杀器 Sed和Awk是本文两个最有用的命令。为了简洁,我不会讨论那些令人费解的细节。相反,我会讨论各种各样的命令来证明他们令人印象深刻的实力。如果你想了解的更多,这本书就可以。 SED 在内核中sed是一个流编辑器。它擅长替换,但是也可以用来重构。 最基本的sed命令包含了s/old/new/g。也就是全局搜索旧值,替换新值。没有/g 我们的命令可能在第一次出现旧值就会终止。 为了尽快了解它的能力,我们来看一个例子。在这个情况你会拿到下面的文件:
我们要做的第一件事就是移除美元符。-i 标识表示就地修改。''就是代表一个零长度文件扩展,因此重写我们的初始文件。理想情况下,你会单独测试这些并输出到一个新文件。
下一步,我们的balance列的逗号。
最终,Jack有一天起来并准备辞职了。所以,再见吧,我的朋友。
就像你所看到的,sed功能强大,但是乐趣不止于此。 AWK 最好的放最后。Awk不仅是一个简单的命令:它是一个成熟的语言。在本文中包含的每一个命令中,awk目前是最酷的。如果你发现它令你印象深刻,这有大量的资源- 看这,这,和这。 awk包含的常用案例:
Awk在其最初雏形可以与grep平行。
或者多使用一点魔法,让grep和cut结合。在这,awk对所有行通过word打印了以tab分隔的第三和第四列。-F,只是将分隔符变为逗号。
Awk具有大量有用的内置变量。例如, NF -字段数 - 和NR - 记录数。为了获取文件中这53个记录:
添加一个小窍门可以基于一个值或者多个值过滤。下面的第一个例子,会打印这些记录中第一列为string的行数和列。
(编辑:91站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |