正規表現に関するSosomeKasuのブックマーク (1)

  • 第3章: 正規表現

    Wikipediaの記事を以下のフォーマットで書き出したファイルjawiki-country.json.gzがある. 1行に1記事の情報がJSON形式で格納される 各行には記事名が”title”キーに,記事文が”text”キーの辞書オブジェクトに格納され,そのオブジェクトがJSON形式で書き出される ファイル全体はgzipで圧縮される 以下の処理を行うプログラムを作成せよ. 20. JSONデータの読み込み Wikipedia記事のJSONファイルを読み込み,「イギリス」に関する記事文を表示せよ.問題21-29では,ここで抽出した記事文に対して実行せよ. 21. カテゴリ名を含む行を抽出 記事中でカテゴリ名を宣言している行を抽出せよ. 22. カテゴリ名の抽出 記事のカテゴリ名を(行単位ではなく名前で)抽出せよ. 23. セクション構造 記事中に含まれるセクション名とそのレベル(例え

    第3章: 正規表現
  • 1