パソコン・情報公開# 「過去のはてなダイアリーの検索」という参考記録資料について

:CATEGORIES: @kanazawabengosi #金沢弁護士会 @JFBAsns 日本弁護士連合会(日弁連) #法務省 @MOJ_HOUMU #説明

 「.hatena.hirono-hideki」というパソコンのフォルダになるのですが,1,370のテキストファイルがあり,データサイズは16MB,1,31443行のテキスト,286,849のワード,13,388,205文字となっています。

 ファイル名は,00801014 19641126 19920401 19920402 19920408 19920409 19920410 19920411 19920412 19920413から始まり,20150301 20150302 20150303 20150304 20150305 20150306 20150307 20150308 20150309 20150310で終わっています。

 これは独自の仕様であったはてなダイアリーの日付単位の記事に対応するもので,「19920401」は,1992年(平成4年)4月1日に対応します。そして最終が2015年3月10日です。00801014は意味のない内容だったので削除しました。

 都合よくファイルが年月日の順序で並んでいるので,検索結果に反映されるのですが,grep 弁護士 ./* という検索の場合数値の若い古いものから並び,grep 弁護士 ./* |tac とやると逆に新しいものから表示され,末尾に最も古いものが来ます。

 tacコマンドというのは滅多に見かけないので意味不明かと思いますが,catコマンドを逆順で表示させるものです。

 この検索結果のテキストの内容をはてなブログに記事として投稿しています。今のところ次の3つの記事ですが,今後も活用することが多くなると思います。


(py37_env) ➜ .hatena.hirono-hideki ghatena201912 | grep -a '過去のはてなダイアリーの検索'
1174:2021-02-11_13:59:47 被告発人古川龍一裁判官# 「古川龍一」(被告発人古川龍一裁判官)をキーワードにした過去のはてなダイアリーの検索 https://hirono-hideki.hatenadiary.jp/entry/2021/02/11/135946
1175:2021-02-11_14:03:30 モトケンこと矢部善朗弁護士(京都弁護士会)# モトケンこと矢部善朗弁護士(京都弁護士会)に関する過去のはてなダイアリーの検索 https://hirono-hideki.hatenadiary.jp/entry/2021/02/11/140328
1176:2021-02-11_14:19:51 市場急配センター# 2003年6月9日付け求意見書に関する,過去のはてなダイアリーの検索 https://hirono-hideki.hatenadiary.jp/entry/2021/02/11/141948

 記事を開いてみないとわからないと思いますが,四角い枠の中でテキストが,一部色付けで表示されているかと思います。これははてな記法シンタックスハイライトという機能を使っているのですが,注意点は,行の折り返しがなく,下のスクロールバーで右に伸びていることです。

 文字制限のあるTwitterを始めてからこまめに改行を入れるようになったのですが,以前は改行をしないまま書き続けることが多く,一行に300文字を超えるものも少なくないことを確認しています。

 この行の折り返しというのは一長一短があるのですが,テキストをコピペし,ワープロソフトに貼り付ければ,自動で折り返しが入るかと思います。基本的に一行が1件の検索データとなっているかと思います。おすすめなのはブラウザでのページ内検索です。

 色付けは別に,折り返しがないのもHTMLのpreタグが使われているからになります。

 なお,過去のはてなダイアリーのデータでは,けっこうな数でHTMLタグが含まれたものがあり,見づらいことはあるかと思います。タグを除去する方法もあるのですが,HTMLとして表示させれば見やすくなることもあるかと思います。いずれにせよ,時期と内容確認に重点をおいています。