RakuAPI - 楽天市場 非公式ウェブサービス という楽天の非公式 API のライブラリを作るのが流行みたいなので作ってみました。ただそれだけでは面白くないので、最近自分が TDD でライブラリ作るときの方法も軽くご紹介します。 まずはインターフェイスの構想 何はともあれ、どんなインターフェイスを定義して、どんな結果が返ってくるのかがイメージできないとライブラリは作...
『 >Rubyでスクレイピング。srcAPIのチートシート。PerlWeb::Scraperの理解のためにも。 』
『 >>RubyによるWebScrapingライブラリの情報をまとめるためのWikiです。 』
『 cssセレクタでタグを取れるRuby用Webスクレイピングライブラリ 』
http://blog.labnotes.org/category/scrapi/ ruby でスクレイピングして web の情報を取得するのには、今まで正規表現か xpath でやってたので、わりと面倒でした。で、ふと scrAPI というスクレイピングツールキットを知ったのですが、これがかなり便利そう。 このツールキットを使うと、CSS3 なセレクタを記述することで、要素を取得することができます。たとえばとあるサイトのリンクを全部...
第二引数に extractor (専門用語)を指定することができる。extractor の書式では"@" プレフィクスが属性値を意味するので、リンクを取得する場合は "@href" を指定する。 リンク先を抽出html.scrape("#con1 li a:nth-child(1)", "@href") => ["/life/update/0115/014.html", "/life/update/0115/013.html", "/national/update/0115/SEB200701150016.html", "/national/update/0115/TKY200701150...