Bibliography (45):

http://robotics.stanford.edu/~amaas/papers/relu_hybrid_icml2013_final.pdf
Swish: Searching for Activation Functions
https://arxiv.org/pdf/1804.00222.pdf#page=17&org=deepmind
‘MLP NN’ directory
https://www.planchet.net/EXT/ISFA/1226.nsf/769998e0a65ea348c1257052003eb94f/e7dc33e4da12c5a9c12576d8002e442b/$FILE/Jones01.pdf
Practical Bayesian Optimization of Machine Learning Algorithms
Algorithms for Hyper-Parameter Optimization
https://www.jmlr.org/papers/volume13/bergstra12a/bergstra12a.pdf
NEAT: Evolving Neural Networks through Augmenting Topologies
Neural Architecture Search with Reinforcement Learning
Designing Neural Network Architectures using Reinforcement Learning
Learning Transferable Architectures for Scalable Image Recognition
Large-Scale Evolution of Image Classifiers
Learning to Learn Using Gradient Descent
Gradient-based Hyperparameter Optimization through Reversible Learning
Learning to learn by gradient descent by gradient descent
Learning to Learn without Gradient Descent by Gradient Descent
Learning to Optimize Neural Nets
Learned Optimizers that Scale and Generalize
Neural Optimizer Search With Reinforcement Learning
Prototypical Networks for Few-shot Learning
MAML: Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
Evolved Policy Gradients
Evolution Strategies as a Scalable Alternative to Reinforcement Learning
Matching Networks for One Shot Learning
Optimization as a Model for Few-Shot Learning
A Simple Neural Attentive Meta-Learner
WaveNet: A Generative Model for Raw Audio
Supervising Unsupervised Learning
Learning a synaptic learning rule
On the Optimization of a Synaptic Learning Rule
Wikipedia Bibliography:
1. Backpropagation
2. MNIST database
3. Rectifier (neural networks)
4. Variance
5. Latent and observable variables
6. Stochastic gradient descent
7. Bayesian statistics
8. Long short-term memory
9. Recurrent neural network
10. Loss function
11. Nearest neighbor search
12. Cluster analysis
13. Learning rule
14. Simulated annealing