brandonrobertz · October 9, 2018 09:29
diff --git a/keras_fasttext_skipgram_embedding.py b/keras_fasttext_skipgram_embedding.py
 # coding: utf-8
 from __future__ import print_function
 import numpy as np
 from keras.models import Sequential
 from keras.layers import Embedding

 window_size = 1

 # using skipgram embeddings built using fasttext:
 # fasttext skipgram -input dataset -output dataset.skipgram
 with open('data/dataset.skipgram.vec', 'r') as f:
    data = f.readlines()

 word_vectors = {}
 samples, dim = data[0].split()

 for line in data[1:]:
    word, vec = line.split(' ', 1)
    word_vectors[word] = np.array([
        float(i) for i in vec.split()
    ], dtype='float32')

 E = np.zeros(shape=(int(samples), int(dim)), dtype='float32')
 word_index = word_vectors.keys()
 for ix in range(len(word_index)):
    word = word_index[ix]
    vec = word_vectors[word]
    for j in range(int(dim)):
        E[ix][j] = vec[j]

 embedding = Embedding(
    len(word_index),
    int(dim),
    weights=[E],
    input_length=window_size,
    trainable=False
 )

 model = Sequential()
 model.add(embedding)
 model.compile('sgd', 'mse', ['accuracy'])

 pred = model.predict(np.array([[0]]))
 p = pred[0][0]
 a = word_vectors[word_index[0]]
 print( "Predicted embedding vector", p)
 print( "Actual embedding vector", a)
 print( "Equal?", p == a)
	# coding: utf-8
	from __future__ import print_function
	import numpy as np
	from keras.models import Sequential
	from keras.layers import Embedding

	window_size = 1

	# using skipgram embeddings built using fasttext:
	# fasttext skipgram -input dataset -output dataset.skipgram
	with open('data/dataset.skipgram.vec', 'r') as f:
	data = f.readlines()

	word_vectors = {}
	samples, dim = data[0].split()

	for line in data[1:]:
	word, vec = line.split(' ', 1)
	word_vectors[word] = np.array([
	float(i) for i in vec.split()
	], dtype='float32')

	E = np.zeros(shape=(int(samples), int(dim)), dtype='float32')
	word_index = word_vectors.keys()
	for ix in range(len(word_index)):
	word = word_index[ix]
	vec = word_vectors[word]
	for j in range(int(dim)):
	E[ix][j] = vec[j]

	embedding = Embedding(
	len(word_index),
	int(dim),
	weights=[E],
	input_length=window_size,
	trainable=False
	)

	model = Sequential()
	model.add(embedding)
	model.compile('sgd', 'mse', ['accuracy'])

	pred = model.predict(np.array([[0]]))
	p = pred[0][0]
	a = word_vectors[word_index[0]]
	print( "Predicted embedding vector", p)
	print( "Actual embedding vector", a)
	print( "Equal?", p == a)