Sebastian Raschka
last updated: 10/20/2014

Terms in data science defined in one paragraph

Although, I am not a big fan of the term "data science" itself - since it is an umbrella term that basically includes everything but means nothing in particular.
Here, I probably finally found a context where it is useful: I think it makes this collection eligible to include anything from machine learning and pattern classification, data mining, computer science, engineering, mathematics, and statistics. I basically picture "data science" as the name of the Venn diagram of all those different fields (with extensive overlap!).

I'd be happy about contributions or to hear your comments and suggestions. Please feel free to drop me a note via twitter, email, or google+.

#Table of Contents

Accuracy
Active Learning
Aggregation
Anomaly Detection
Artificial Neural Networks (ANN)
Backtesting
Bagging
Bag of words
Batch Gradient Descent
Batch Learning
Big Data
Bootstrapping
Bregman divergence
Central Limit Theorem
Confusion Matrix
Contingency Table
Correlation analysis
Correlation analysis, Canonical
Correlation analysis - Matthews Correlation Coefficient (MCC)
Correlation analysis - Kendall
Correlation analysis - Pearson
Correlation analysis - Spearman
Cosine Similarity
Cost function
Covariate creation
Cross-validation
Cross-validation, K-fold
Cross-validation, Leave-One-Out
Cross-validation, Random Sampling
Curse of dimensionality
Data mining
Decision rule
Decision tree classifier
Density-based clustering
Descriptive modeling
Dimensionality reduction
Distance Metric Learning
Distance, Euclidean
Distance, Manhattan
Distance, Minkowski
Eager learners
Eigenvectors and Eigenvalues
Ensemble methods
Evolutionary algorithms
Exhaustive search
Expectation Maximization algorithm - EM
Feature Selection
Feature Space
Fuzzy C-Means Clustering
Generalization error
Genetic algorithm
Gradient Descent
Greedy Algorithm
Grid Search
Heuristic search
Hyperparameters
iid
Imputation
Independent Component Analysis
Jaccard coefficient
Jackknifing
Jittering
Kernel Density Estimation
Kernel (in statistics)
Kernel Methods
Kernel Trick
k-D Trees
K-fold cross-validation
K-Means Clustering
K-Means++ Clustering
K-Medoids Clustering
K-nearest neighbors algorithms
Knowledge Discovery in Databases (KDD)
LASSO Regression
Latent Semantic Indexing
Law of Large Numbers
Lazy learners
Least Squares fit
Least Squares fit - linear
Linear Discriminant Analysis (LDA)
Local Outlier Factor (LOF)
Locality-sensitive hashing (LSH)
Logistic Regression
Machine learning
Mahalanobis distance
MapRedcue
Markov chains
Maximum Likelihood Estimates (MLE)
MinHash
Monte Carlo simulation
Naive Bayes Classifier
N-grams
Non-parametric statistics
Normal Modes
Normalization - Min-Max Scaling
Normalization - Standard Scores
Objective function
On-Line Analytical Processing (OLAP)
On-Line Learning
Overfitting
Parzen-Rosenblatt Window technique
Pattern classification
Perceptron
Permissive transformations
Power transform
Precision and Recall
Predictive Modeling
Principal Component Analysis (PCA)
Proportion of Variance Explained (PVE)
Purity Measure
Quantitative and qualitative attributes
Random forest
Receiver Operating Characteristic (ROC))
Regularization
Reinforcement learning
Resubstitution error
Ridge Regression
Rule-based classifier
Sampling
Sensitivity
Sharding
Silhouette Measure (clustering)
Simple Matching Coefficient
Singular Value Decomposition (SVD)
Soft classification
Specificity
Stochastic Gradient Descent (SGD)
Supervised learning
Support Vector Machine (SVM)
Term frequency and document frequency
Term frequency - inverse document frequency, Tf-idf
Tokenization
Unsupervised learning
White noise
Whitening transformation

Files

data_glossary.md

Latest commit

History

data_glossary.md

File metadata and controls

Terms in data science defined in one paragraph

Accuracy

Active Learning

Anomaly detection

Artificial Neural Networks (ANN)

Backtesting

Bagging

Bag of words

Batch Gradient Descent

Batch Learning

Big Data

Bootstrapping

Bregman divergence

Central Limit Theorem

Confusion Matrix

Contingency Table

Correlation analysis

Correlation analysis, Canonical

Correlation analysis - Matthews Correlation Coefficient (MCC)

Correlation analysis - Kendall

Correlation analysis - Pearson

Correlation analysis - Spearman

Cosine Similarity

Cosine Similarity

Cost function

Cross-validation

Cross-validation, K-fold

Cross-validation, Leave-One-Out

Cross-validation, Random Sampling

Curse of dimensionality

Data mining

DBSCAN

Decision rule

Decision tree classifier

Density-based clustering

Descriptive modeling

Dimensionality reduction

Distance Metric Learning

Distance, Euclidean

Distance, Manhattan

Distance, Minkowski

Eager learners

Eigenvectors and Eigenvalues

Ensemble methods

Ensemble methods

Evolutionary algorithms

Exhaustive search

Expectation Maximization algorithm - EM

Feature Selection

Feature Space

Fuzzy C-Means Clustering

Generalization error

Genetic algorithm

Gradient Descent

Gradient Descent

Greedy Algorithm

Heuristic search

Hyperparameters

Imputation

Independent Component Analysis

Jaccard coefficient

Jackknifing

Jittering

k-D Trees

Kernel Density Estimation

Kernel (in statistics)

Kernel Methods

Kernel Trick

k-fold Cross-validation

K-Means Clustering

K-Means++ Clustering

K-Medoids Clustering

K-nearest neighbors algorithms

Knowledge Discovery in Databases (KDD)