pytorch模型的保存与加载,pytorch数据加载

　　1.在以在模型中使用数据加载器为目的的深度学习中，数据量通常非常大，大量的数据无法同时在模型中向前计算和向后传播。通常对整个数据进行随机置乱，在逐个批处理的同时对数据进行预处理。

　　2.Dataset类介绍2.1Dataset基类在torch中，提供了datasets的基类torch.utils.data.Dataset，继承这个基类可以快速实现数据加载。

　　torch.utils.data.Dataset的源代码如下：

　　class dataset(object): anabstractclassrepresentaingdataset . allotherdatasetsshouldsubclassessshouldshowdataset，和``__getitem__ `，支持整数索引范围从0到len (self) Exclus项索引(:RaiseMentioned Error Def _ len _(self):raisementederrordef _ _ add _)self，ottimplementer otelf other])可以看出，定制的dataset类必须继承Dataset类，必须实现两个方法。

　　__len__方法可以使用全局len()方法来获取其中的元素个数。

　　__getitem__方法。例如，可以通过传递索引来检索数据，比如从dataset[i]中检索第I个数据。

　　2.2使用数据集作为数据加载用例的示例来加载数据。

　　数据来源：UCI machine learning Repository 3360 SMSSPAMCollectionDataSet

　　数据简介：垃圾短信收集是一组用于识别垃圾邮件的典型数据集，完全来自实际邮件内容，包含4831封普通邮件和747封垃圾邮件。普通邮件和垃圾邮件存储在一个文本文件中，每行完整记录一封邮件的内容，每行开头使用ham和spam来区分普通邮件和垃圾邮件。内容如下。

　　首先，实现dataset类。

　　importtorchfromthorch . utils . dataimportdatasetdata _ path=r d: My Documents 马岱 python py torch mnist Post-mail特殊含义#数据集classmydataset (dataset)的索引：def _ init _(self):self . lines=open(data _ path，complete encoding= encoding)): #索引中相应位置的一段数据返回self.lines [index]。strip (# newline def _ len _ (sstrip

　　然后，您可以实例化数据集并重复获取其中的数据。

　　if _ name _= _ main _ :my _ dataset=my dataset(for iinrange(4):print)my _ dataset)。

　　此时，标签的内容和文本没有分开，所以修改__getitem方法。

　　def_getitem_(self，index):cur _ line=self . lines[index]。strip ) label=cur_line[:4].

　　3.迭代数据集可以通过上述方法读取数据，但其中许多方法尚未实现。

　　pytorch中的“批处理数据”和“混排数据”，使用多线程、多线程和多处理并行加载数据，torch.utils.data

　　示例：

　　importtorchfromforce . utils . dataimportdataloader，dataset data _ path=r d: my documents 马岱python Py tororath后面是特殊含义# dataset class my dataset(dataset):def _ _ init _(self):self . lines=open)data _ path，和encode index) 3360cur _ line=self。线条[索引]。strip (label=cur _ line [:4]。strip) content=cur _ line content返回数据返回的总数len(self . lines)my _ dataset=my dataset)data _ loader=dataser shuffle=true，num _ workers=2(im)

　　数据集：预定义的数据集实例；Batch_size:输入数据的批量大小，常用128、256等。Shuffle:bool类型，表示每次采集数据时是否提前洗牌；Num_workers:加载数据的线程数。输出的一些结果如下

　　当然，在遍历的过程中，enumerate关键字可以将对象组合成一个序列和索引，从而同时检索索引和索引值。如果你需要打印数据的长度，使用ceil函数。将指定的值转换为等于或大于最小整数。

　　foriienumerate(data _ loader):

　　是打印(一)

pytorch模型的保存与加载,pytorch数据加载