split

2026-03-18 17:33:10 -05:00
parent 64ed10e95c
commit d756b6bd1a
1 changed files with 71 additions and 0 deletions
--- a/notebooks/model-training-v1.ipynb
+++ b/notebooks/model-training-v1.ipynb
@@ -173,6 +173,77 @@
    "y = x @ x\n",
    "print(\"GPU works!\", y.shape)"
   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "870fadbe",
+   "metadata": {},
+   "source": [
+    "Transform image dataset into tensors. Normalized with 0.5 mean and 0.5 STD (can be differente to use pretrained weights)."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "id": "37793c77",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "['Bicycle', 'Bus', 'Car', 'Motorcycle', 'NonVehicles', 'Taxi', 'Truck', 'Van']\n",
+      "26378\n"
+     ]
+    }
+   ],
+   "source": [
+    "from torchvision import datasets, transforms\n",
+    "from torch.utils.data import random_split, DataLoader\n",
+    "\n",
+    "transform = transforms.Compose([\n",
+    "    transforms.ToTensor(),\n",
+    "    transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5])\n",
+    "])\n",
+    "\n",
+    "dataset = datasets.ImageFolder(root=data_dir, transform=transform)\n",
+    "\n",
+    "print(dataset.classes)   # should print 8 classes\n",
+    "print(len(dataset))      # total image count"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "ac33bc21",
+   "metadata": {},
+   "source": [
+    "Split 80-20 and save into 2 variables"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "f68c1a25",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Train: 21102, Test: 5276\n"
+     ]
+    }
+   ],
+   "source": [
+    "import math \n",
+    "\n",
+    "train_size = math.floor(len(dataset) * 0.8)\n",
+    "test_size = len(dataset) - train_size\n",
+    "\n",
+    "train_dataset, test_dataset = random_split(dataset, [train_size, test_size])\n",
+    "\n",
+    "print(f\"Train: {len(train_dataset)}, Test: {len(test_dataset)}\")"
+   ]
  }
 ],
 "metadata": {