覚えたら書く

IT関係のデベロッパとして日々覚えたことを書き残したいです。twitter: @yyoshikaw

TensorFlow User Group #3 行ってきたよ

カンファレンス・勉強会

TensorFlow User Group #3に行ってきました。

今回は開催回数が奇数回だったので、TensorFlowの利用事例の発表がメインでした。

以下自分用のメモです

概要

場所： Google ジャパン
日時： 2017/2/22 19:00～

Retty流「2200万ユーザさんを支える機械学習基盤」の作り方

Retty株式会社樽石将人氏

https://speakerdeck.com/taru0216/tfug-number-3-rettyliu-2200mo-yuzasanwozhi-eruji-jie-xue-xi-ji-pan-falsezuo-rifang-dockerbian

Rettyのサービス
- 「人から探せる」グルメサービスを運営
- 「この人のおすすめは自分に合ってそう」というのが直感的にわかるユーザ体験を作っている
グルメ情報に関する信頼性等向上の取り組み
- 実名・顔写真公開による投稿
- 投稿内容をリアルな友達・知人に見てもらう
- 二次著作の許諾
Rettyのデータの種類と規模
- 口コミ
- 画像
- 人の行動・ソーシャルグラフ
- 店舗情報
Retty機械学習マシン
- GPU付自作PCを全自動ネットインストールでセットアップ
- ブラウザでも開発できます
- Kubernets(Docker) + juju + MAAS
- すべてのDockerイメージはコアDocker（retty2-runtime-core）から継承
- KubernetsのDaemon Setで全マシンにデプロイ
- Kubernetsはjuju & MAASでネット自動インストール

DeepLearningの自然言語処理への応用事例　-文字単位CNNによる口コミ分類-

Retty株式会社氏原淳志氏

日本語の自然言語の処理の大きな壁。単語の切れ目がさっぱりわからない
- 分かち書き（形態素解析）
- これには辞書が必要。未知の単語には対応できない。
自然言語処理でのDeep Learning
- 画像は1pixel単位でCNNにかけてる。なら文字列も単語単位ではなく文字単位にCNNにかける
- 文章を文字単位分割⇒UNICODEに変換⇒それぞれの文字N次元ベクトル⇒CNN
デートに使える店の口コミ
- 焼き鳥店の口コミでも内容によって分類結果が大きく異なった
教師作りのソルジャーは必要

SENSYにおける深層学習活用事例とTensorFlowの悩み相談

カラフル・ボード株式会社　武部雄一氏

SENSY
- SENSY＝パーソナルAI
- SENSYの位置づけ＝特化型人工知能
SENSYを応用したtoBソリューション
- AI技術提供
  - toCサービスで語りにした成果物を応用して企業へ提供・導入
SENSYにおける機械学習/深層学習の活用事例
- 画像に対するカテゴリや雰囲気のタグ付け
- 画像背景の透過
- コーディネートの自動作成
事例
- 広告CVR予測 with TensorFlow
  - マーチャントとパートナーの特徴量作成にオートエンコーダーを利用。RBFNを用いてCVRの予測回帰モデルを作成
  - 今回の対象ではシグモイド関数を利用
- ファッションアイテムの推薦最適化
  - ヒートマップは、画像特徴量をt-SNEで2次元に落とし込み、各画像の推定スコアを色で表現
  - CNNはChainer
  - 可視化されていると顧客との共通認識を持ちやすい
  - 今後、分散化による速度向上を目的にTensorFlow / Cloud ML に変えていく予定
Chainerで作った既存プロジェクト、TensorFlowでもやってみたいとは思うが各フレームワークの設計思想が異なりモデルの変換は絶望的
Chainerは実装しながらモデルを創れるのでミスを発見しやすい。比べてTensorFlowはミスや想定外箇所を特定しづらい
TensorFLowは小一時間で基本構成要素を理解できる

NNで広告配信のユーザー最適化をやってみた

GMOインターネット次世代システム研究室　勝田隼一郎氏

AkaNe
- 広告配信のルール⇒学習Model
- Model候補
  - オーディエンス拡張
    - 特徴量の空間でclickするUserに近いclusterを見つけ、拡張Userとして配信ターゲットにする
    - 今回はこれは不採用
  - MLP
    - 配信履歴よりclickしたUserしてないUserに分類
    - これを教師データとしてMLP（多層パーセプトロン）で学習を行う
- Embedding
  - スパースなデータを圧縮（Embedding）する必要があった
  - 大量データを扱うため、Apache SparkのMLibのALSを用いた
実配信によるABテストで従来に比べてCTRが2倍に向上したことを確認できた

関連エントリ