R言語で、文字列でパターンが一致した回数をカウントする方法について解説します。文字列の操作には、tidyverseパッケージに含まれているstringrパッケージを使用するのが便利です。ここでは、stringrパッケージのstr_count()を使用した方法についてお伝えします。
str_count()の概要
str_count()は、文字列でパターンが一致した回数をカウントするための関数です。
str_count()の使い方
stringr::str_count()の使い方は次になります。
str_count(string, pattern = "")
str_count()の引数の意味
string
文字ベクトルまたは文字ベクトルに変換可能なものを指定します。
pattern = “”
検索するパターンを指定します。
デフォルトの解釈は、正規表現です。一致動作をより細かく制御するには、regex()を使用します。fixed()を使用して、固定文字列(つまり、バイトのみを比較する)を一致させます。これは高速ですが、近似値です。一般に、人間のテキストを一致させるには、指定されたロケールの文字一致ルールを尊重するcoll()が必要になります。boundary()を使用して、文字、単語、行、文の境界を一致させます。空のパターン””は、boundary(“character”) と同等です。
準備
あらかじめ、tidyverseパッケージを読み込んでおきます。
library(tidyverse)
str_count()の使用例
文字列「あいうえおあいう」内で「あ」が出現する回数を数えるには次のようにします。
str_count("あいうえおあいう", pattern = "あ")
[1] 2
次のように、文字列のベクトルとして指定することもできます。
str_count(c("あいうえおあいう", "あいうえおかきくけこ"), pattern = "あ")
[1] 2 1
R×stringr::str_count 文字列でパターンが一致した回数をカウントする