yoshoku · February 11, 2021 00:26
diff --git a/classify.rb b/classify.rb
 require 'magro'
 require 'json'
 require 'torch'
 require 'torchvision'

 # 学習済みのVGG-16 Networkを読み込む.
 vgg = TorchVision::Models::VGG16.new
 vgg.load_state_dict(Torch.load('vgg16_.pth'))

 # 画像を読み込む.
 img = Magro::IO.imread('A_Golden_Retriever-9_(Barras).JPG')

 # 画像の中心を正方形に切り出す.
 height, width, = img.shape
 img_size = [height, width].min
 y_offset = (height - img_size) / 2
 x_offset = (width - img_size) / 2
 img = img[y_offset...(y_offset + img_size), x_offset...(x_offset + img_size), true]

 # 画像を224x224の大きさにする.
 img = Magro::Transform.resize(img, height: 224, width: 224)

 # 画素値を[0, 1]の範囲に正規化する.
 img = Numo::SFloat.cast(img) / 255.0

 # 画像をtorch.rbのtensorに変換し, [チャンネル, 高さ, 幅]の順に入れ替える.
 img_torch = Torch.from_numo(img).permute(2, 0, 1)

 # 平均と標準偏差を正規化する.
 mean = Torch.tensor([0.485, 0.456, 0.406])
 std = Torch.tensor([0.229, 0.224, 0.225])
 normalize = TorchVision::Transforms::Normalize.new(mean, std)
 normalize.call(img_torch)

 # tensorを [1, 3, 224, 224] の形にする.
 img_torch = img_torch.expand(1, -1, -1, -1)

 # 学習済みモデルに、前処理した画像を入力する.
 vgg.eval
 out = vgg.forward(img_torch)

 # 最終層の出力で最も値の大きい要素の添字を得る.
 class_idx = out.numo[0, true].max_index

 # 添字に対応するImageNetのクラスを出力する.
 imagenet_classes = JSON.load(File.read('imagenet_class_index.json'))
 puts "class: #{imagenet_classes[class_idx.to_s].last}"
	require 'magro'
	require 'json'
	require 'torch'
	require 'torchvision'

	# 学習済みのVGG-16 Networkを読み込む.
	vgg = TorchVision::Models::VGG16.new
	vgg.load_state_dict(Torch.load('vgg16_.pth'))

	# 画像を読み込む.
	img = Magro::IO.imread('A_Golden_Retriever-9_(Barras).JPG')

	# 画像の中心を正方形に切り出す.
	height, width, = img.shape
	img_size = [height, width].min
	y_offset = (height - img_size) / 2
	x_offset = (width - img_size) / 2
	img = img[y_offset...(y_offset + img_size), x_offset...(x_offset + img_size), true]

	# 画像を224x224の大きさにする.
	img = Magro::Transform.resize(img, height: 224, width: 224)

	# 画素値を[0, 1]の範囲に正規化する.
	img = Numo::SFloat.cast(img) / 255.0

	# 画像をtorch.rbのtensorに変換し, [チャンネル, 高さ, 幅]の順に入れ替える.
	img_torch = Torch.from_numo(img).permute(2, 0, 1)

	# 平均と標準偏差を正規化する.
	mean = Torch.tensor([0.485, 0.456, 0.406])
	std = Torch.tensor([0.229, 0.224, 0.225])
	normalize = TorchVision::Transforms::Normalize.new(mean, std)
	normalize.call(img_torch)

	# tensorを [1, 3, 224, 224] の形にする.
	img_torch = img_torch.expand(1, -1, -1, -1)

	# 学習済みモデルに、前処理した画像を入力する.
	vgg.eval
	out = vgg.forward(img_torch)

	# 最終層の出力で最も値の大きい要素の添字を得る.
	class_idx = out.numo[0, true].max_index

	# 添字に対応するImageNetのクラスを出力する.
	imagenet_classes = JSON.load(File.read('imagenet_class_index.json'))
	puts "class: #{imagenet_classes[class_idx.to_s].last}"