Kevin Luzbetak - Computer Science

Natural Language Processing (NLP): LLMs, RAG, FAISS, Embeddings

TF-IDF (Term Frequency-Inverse Document Frequency)
BM25 (Best Matching 25) BM25 (Best Matching 25) probabilistic information retrieval model.
Whoosh BM25 Python B-Tree Index using BM25

Machine Learning

PyTorch Library Machine Learning, Deep Learning, Natural Language Processing (NLP), and Computer Vision.
Keras - Deep Learning Training Neural Networks

Scikit-learn Supervised and Unsupervised Learning
Random Forest Classifier

Tensors Multi-Dimensional Arrays Images (3D), Videos (4D), NLP, (High-Dimensional)
LanceDB Vector Database
FAISS Vector Database

Processing Data Files for Large Language Models (LLMs)

PDF File Split

PDF Convertion to Text File

MS Word Processing for RAG

Text Embeddings - Cosine Similarity Calculation

similarity       = 1 - cosine_distance
MODEL_NAME       = "sentence-transformers/all-MiniLM-L6-v2"
model            = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')

# VECTOR_DIMENSION = 384 is fixed property of the "all-MiniLM-L6-v2" model
# Each text input will be converted into a vector with exactly 384 numbers
# ANY text - single word, a sentence, a paragraph, or a chunk of text will 
# be converted into exactly 384 numbers by the model.
VECTOR_DIMENSION = 384

# Models and their dimensions
# "all-MiniLM-L6-v2"                      -> 384 dimensions
# "all-mpnet-base-v2"                     -> 768 dimensions
# "all-MiniLM-L12-v2"                     -> 384 dimensions
# "paraphrase-multilingual-MiniLM-L12-v2" -> 384 dimensions

Natural Language Processing (NLP): LLMs, RAG, FAISS, Embeddings

Machine Learning

Processing Data Files for Large Language Models (LLMs)

Text Embeddings - Cosine Similarity Calculation

Natural Language Understanding (NLU)