パーサとは

パーサ(parser)とは、一定ルールに基づいた記述に対して、構文解析をするプログラム全般のことをいう。

パーサは、パーザやパーサー、パーザーともいう。パーサは、コンパイラの持つ一部の機能である。通常だと、字句解析のあとにパースが行われ、意味解析へと続く。

パーサでは、大枠の開始記号から解析を始めて、細かい要素へと分析を進めていく方法と、基礎部分の要素を見つけ出してそこからより大きな要素へと分析をしていく方法がある。また、パーサではまず人間の作ったソースコードをツリー構造に置換え、機械語へと変換を行う。エラーが発生するとパースエラーとなる。

パーサは、プログラミング言語の処理で利用されることが多い。しかし、設定ファイルをロードする際や一定のルールに従ったテキスト文書などにおける加工でも利用される。

例えば、XMLパーサなどが代表例である。これは、XML特有の構文によって書かれたデータを分析し、それを使うソフトウェアや人間にとって扱いやすい形に置換えるプログラムのことを指す。

XML文書は、そのままの状態で開くと、一定のルールに基づいたタグとテキストからなるデータの集合体である。こういったソースコードは人間にとっては見やすく整形されていたりする。しかし、それをプログラムで単純に扱うと、連結文字になる。連結文字から特定の単語や記号を取り出して処理することもできるが、それでは非常に扱いにくいし、処理も増える。

そこで、XMLパーサが利用される。一定のルールに基づいたデータの集合体は、ルーチン処理を行いやすい傾向がある。例えば、Aに対してBといった配列の形にしてしまうと、プログラムはそのデータを処理しやすくなる。

他に、HTMLの構造を分析して、表示できる状態の形に置換える際などにも利用される。この場合、HTMLパーサと呼ばれることがある。

パーサの意味を簡潔に説明すると

文書の構造を解析し、扱いやすい構造のデータに置換えるプログラムのこと。