12.08.2021

Powershell ile metin dosyalarını incelemek

Grafik arayüzlü metin editörleri varken ne gerek var Powershell'e. Ama çok büyük metin dosyaları ile çalışırken bütün dosyayı açıp incelemek sorun olabilir. Çok büyük derken örneğin 250 GB. Bu kadar dosyayı açıp belleğe almak bile ciddi bir iş.

Onun yerine Get-Content ve Select-String gibi cmdlet'ler kullanılabilir mi?

Öncelikle alias'ları da kullanarak dosyanın başından 20 satırını bir inceleyelim.

> cat -TotalCount 20 .\network.log

Bir de sondan 20 satırı görelim

> cat -Tail 20 .\network.log

Başlangıçtan örneğin 5 satır atlayarak geri kalanı oku gibi bir komutu cat ve select-object'in birleşimi ile sağlayabiliriz: 

> cat .\network.log | selet-object -skip 5

Buraya kadar gördüklerimizden dosyanın genel bütün satırlarının System.Net.Sockets ile başladığını gördük diyelim. Peki bununla başlamayanlar var mı? (bkz [1],[2])

> sls "^(?!System.Net.Sockets)" .\network.log

Ve diyelim ki dosyanın içinde bir IIS logu benzeri bir yapı bulduk. Virgülle ayrılmış değerler. İlk alan tarih, daha sonra saat, kaynak ve hedef IP adresleri, kaynak ve hedef portları gibi:

2021-08-10,09:38:22,192.168.7.3,8.8.8.8,1356,443

Bu satırlardan da sadece kaynak IP adresi ve kaynak hedef portu ile ilgileniyoruz. Bu alanları alıp ekrana basmak için kullanabileceğimiz ConvertFrom-String cmdlet'i var. -Delimiter parametresi ile verilen karakterlerle ayrılmış alanları ayrıştırıp P1'den P(N)'e kadar alan isimlerini otomatik yaratıp kullanımımıza sunuyor. Bizim örneğimizde kaynak IP ile hedef portu 4. ve 6. alanalar olduğu için bunları aşağıdaki gibi süzebiliriz:

> sls "^(?!System.Net.Sockets)" .\network.log | ConvertFrom-String | select P4,P6

P4        P6
-------   ---
8.8.8.8   443
1.1.1.1   443

gibi bir sonuç elde edilir.

 Dosyanın içinde 192.168 ile başlayan IP adresleri var mı diye bir bakalım:

> sls "192\.168\.\d{1,3}\.\d{1,3}" .\network.log

Ya da tarih (örneğin 2021-08-10 formatında) yazıyor mu hiç:

> sls "\d{4}-\d{2}-\d{2}" .\network.log

Belki de tarih formatımız 2021.08.10 veya 20210810 da olabilir:

> sls "\d{4}.?\d{2}.?\d{2}" .\network.log

Tüm bunları yaparken bütün dosyayı değil de ilk 1000 veya son 1000 satır üzerinden işlem yapmak da isteyebiliriz. Bunun için "|" operatörü ile cmdlet'leri bağlayabiliriz:

> cat -Totalcount 1000 .\network.log | sls "\d{4}.?\d{2}.?\d{2}"

---

[1] https://docs.microsoft.com/en-us/powershell/module/microsoft.powershell.core/about/about_regular_expressions?view=powershell-7.1

[2] https://www.tutorialspoint.com/powershell/powershell_regex.htm

Hiç yorum yok: