数据科学家的命令行技巧

发布时间：2018-08-16 08:37:23 所属栏目：教程来源：Tocy, kevinlinkai, 边城, 琪花亿草, 雪

导读：技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战对于许多数据科学家来说，数据操作起始于Pandas或Tidyverse。从理论上看，这个概念没有错。毕竟，这是为什么这些工具首先存在的原因。然而，对于分隔符转换等简单任务来说，这些选

全局搜索正则表达式并输出，或使用grep;可能是最知名的命令，并且有很好的理由。 Grep具有很强的能力，特别是在大型代码库中查找方法。在数据科学领域，它充当了其他命令的改进机制。但其标准用法也很有用。

# 递归搜索并列出当前目录下包含'word'的所有文件 
grep -lr 'word' . 
 
# 列出包含word的文件数目 
grep -lr 'word' . | wc -l

对包含word/pattern的行数进行计数

grep -c 'some_value' filename.csv  
# 同样的功能，但是按照文件名列出当前目录下所有包含该关键词的文件  
grep -c 'some_value' *

Grep使用or运算符- |来检索多个值.

grep "first_value|second_value" filename.csv

有用的选项

alias grep="grep --color=auto" 使grep支持彩色输出
grep -E 使用扩展正则表达式
grep -w 仅匹配完整单词
grep -l 打印匹配文件的名称
grep -v 倒序匹配

大杀器

Sed和Awk是本文两个最有用的命令。为了简洁，我不会讨论那些令人费解的细节。相反，我会讨论各种各样的命令来证明他们令人印象深刻的实力。如果你想了解的更多，这本书就可以。

SED

在内核中sed是一个流编辑器。它擅长替换，但是也可以用来重构。

最基本的sed命令包含了s/old/new/g。也就是全局搜索旧值，替换新值。没有/g 我们的命令可能在第一次出现旧值就会终止。

为了尽快了解它的能力，我们来看一个例子。在这个情况你会拿到下面的文件：

balance,name 
$1,000,john 
$2,000,jack

我们要做的第一件事就是移除美元符。-i 标识表示就地修改。''就是代表一个零长度文件扩展，因此重写我们的初始文件。理想情况下，你会单独测试这些并输出到一个新文件。

sed -i '' 's/$//g' data.txt 
 
# balance,name 
# 1,000,john 
# 2,000,jack

下一步，我们的balance列的逗号。

sed -i '' 's/([0-9]),([0-9])/12/g' data.txt 
 
# balance,name 
# 1000,john 
# 2000,jack

最终，Jack有一天起来并准备辞职了。所以，再见吧，我的朋友。

sed -i '' '/jack/d' data.txt 
 
# balance,name 
# 1000,john

就像你所看到的，sed功能强大，但是乐趣不止于此。

AWK

最好的放最后。Awk不仅是一个简单的命令：它是一个成熟的语言。在本文中包含的每一个命令中，awk目前是最酷的。如果你发现它令你印象深刻，这有大量的资源- 看这，这，和这。

awk包含的常用案例：

文本处理
格式化文本报告
执行计算操作
执行字符串操作

Awk在其最初雏形可以与grep平行。

awk '/word/' filename.csv

或者多使用一点魔法，让grep和cut结合。在这，awk对所有行通过word打印了以tab分隔的第三和第四列。-F，只是将分隔符变为逗号。

awk -F, '/word/ { print $3 "t" $4 }' filename.csv

Awk具有大量有用的内置变量。例如， NF -字段数 - 和NR - 记录数。为了获取文件中这53个记录：

awk -F, 'NR == 53' filename.csv

添加一个小窍门可以基于一个值或者多个值过滤。下面的第一个例子，会打印这些记录中第一列为string的行数和列。

awk -F, ' $1 == "string" { print NR, $0 } ' filename.csv  
# Filter based off of numerical value in second column  
awk -F, ' $2 == 1000 { print NR, $0 } ' filename.csv

（编辑：91站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/7

首页

尾页