Linux内核学习总结

时间：2017-07-18 21:09:31 阅读：200 评论：0 收藏：0 [点我收藏+]

标签：linux

分内存和进程两部分。

内存

1) 查看内存及内存分配的几个命令：

a) nmon: 图形化的界面，不只能看内存，还可以看cpu,网络，内核，磁盘信息，内存可以看swap,slab, page table的使用量。

b) top=cat /proc/pid/statm ,里面比较重要的是virt/res/shr的三个数值，分别代表虚拟内存，物理内存，共享内存，注：top显示的是以mb为单位，statm是以页个数为单位，要乘以4k.

c) pmap <pid>：显示给pid分配的内存页面地址，应该是物理内存地址？以及对应的地址打开的文件。

d) strace

e) pstree -p, top -H -p, 前者查看子进程，后者加上H查看线程，但是有时信息输出是一样的，不是很明白，可以用pmap看一下，个人觉得如果分配了地址就是子进程了，子进程和线程的区别是线程共享父进程的内存空间，不需要用别的方法去做进程间通信了。

f）pstack -p <pid> 查看进程分配的内存地址和栈（函数调用）

g）slaptop，查看slap缓存内容。

h）关于free命令第一行最后的buffer和cache，其实是还没有写入磁盘的bufer和当前存在内存的cache，算真实的free和used时候要相应加上和减去他俩，因为预估buffer/cache是可以很快释放的，

第一行最前面的free used是物理内存的free used，包含了后面的cache/buffer，只是预估他们会被释放掉。

2) 内存消耗的主要来源（b,c可以通过nmon命令查看，slap用slaptop看更直观）

a. 进程消耗

b. slab : 内核的模块在分配资源的时候，为了提高效率和资源的利用率，都是透过slab来分配，内核对经常操作的0~896M地址对象有个池,slab用来缓存这个池

c. page table：虚拟内存地址映射物理内存地址的一个页表，一直留在内存

3）linux系统中的几个内存相关缓存

首先一个程序在系统调用exit()函数释放部分内存空间后，是不会立即释放回磁盘的，这样很浪费，会作为cache留在内存中，仍然消耗着内存，所以时间久了内存会不够用。

a. bufer, 全称bufer cache，是用来写入时缓冲块设备的，cpu->bufer->磁盘

b. cache, paging cache，上面文字介绍的cache，用来读取时缓存文件的，cpu->cache，没有采取磁盘找。

也就是free命令中显示的buffer/cache

c. 其实还有目录的dentry和inode缓存，这个是vfs的概念，例如一个路径/home/xxx/yyy，这个就是dentry 缓存，dentry：将inode号和文件名联系起来，dentry还保存目录和其子对象的关系，用于文件系统的变量。dentry还起着缓存的作用，缓存最常使用的文件以便于更快捷的访问。

释放缓存的方法： echo 1/2/3 > /proc/sys/vm/drop_cache ,1是drap paging缓存，2是inode和dentry，三是全部释放

4）虚拟内存与物理内存

32位的系统默认每个进程可以分配4G的虚拟内存，达到了进程隔离的目的，分页管理实现了高效分配，固定物理地址分配的目的，在这4G空间中，0~3G分给用户空间，专门给用户程序使用，3~4G分给内核使用，如果物理内存大于4G，其中最低的0~16M映射给内核1G中的16M，是zone_DMA，给DMA借口设备用的，物理内存的17~896M映射给内核1G中的17~896M，称为zone_normal，用来存储内核常用的上下文，内核区域剩下的128M来临时映射到物理内存剩余的1G之上全部空间（高端内存，通过位移），这样内核就可以访问全部物理内存区域了，而用户区域的3G就只能访问物理内存中的3G（内核1G之外的）。注：只有zone_normal是内核可以直接使用的。

a. 物理内存中的低端内存（低于1G）的由kmallock函数分配，虚拟内存的线性地址和对应的物理内存地址都是连续的，由两个算法：伙伴算法负责大块连续物理内存分配，slab算法负责小块内存分配，接口都是kmalloc函数

b. 物理内存中的高端内存由vmallock函数分配，线性地址连续但是物理内存不连续，这样可以更有效的利用物理内存

c. mallock分配user空间内存。

d. 内存分段管理的缺点：仍然是以程序为单位分段，在内存与swap交换时不能充分高效利用，产生外碎片。

e. 所有进程的内核区起始都是映射的同样地的低端内存，保存例如驱动，内核函数。

5) 在分页管理中心是如何映射虚拟线性地址与物理内存地址的

linux最多支持4级分页，根据不同的cpu厂商，常用的有两级和三级

a.三级：

把线性地址从高到低分为：最高10位是页目录地址，中间10位是页地址，最低12位是偏移offset地址。通过页目录地址找到页表的物理内存地址，通过页地址找到在物理内存中的起始地址，通过偏移找到具体的位置，页目录的物理地址在cpu中的cr3寄存器中（mmu去读），也就是依次找到物理地址中的页目录->页->页起始->页偏移，这个地址的转换是由mmu(内存管理单元)来完成的。

mmu是cpu上的一个硬件，cpu要读取线性地址，首先会去mmu的TLB（缓存线性->物理），没有的话再读线性地址找到PA，也就是说所需要的内存页在物理内存中，如果读不到，就会报一个缺页异常，cpu会去swap分区把内存页交换回来加载到内存。

b.二级：

只有页目录和页表，没有offset，逻辑是一样的。

6）共享内存

两个进程的线性地址映射到同一个物理地址，但是没有同步机制，A进程要写的时候，B也可以去写，可以通过信号量才同步。

7）CPU与外设通信

有三种方法：

a. 状态查询，cpu会去逐个查询外设的状态信息，直到有外设发出停止信号，

b-1. 硬中断，外设会发中IRQ的中断信号->cpu->驱动相应, 例如键盘按下等，这个属于系统调用的一种，用户态->内核态。

b-2. 软中断，由进程发出，直发给驱动。。

c. DMA，外设不经过CPU直接与与内存通信。

IRQ：interupt request，中断请求，linux系统中2-14条req可用，一个外设连一条，同一时刻只能一个irq和cpu联系。

8) cpu读取内存顺序

a. 首先cpu内核发出读取VA请求，这个请求会先到mmu的TLB，里面换存折最近查询VA的记录和物理页，如果有直接把物理页传给内核，不需要翻译了。

b, 如果tlb没有，就要翻译之后去PA页读取了存在TLB（如果允许cache，这个权限在页表中设置了），再加载给内核。

c. 如果加载不到物理页就会引发缺页，去磁盘读了加载进物理页。

二部分：进程

一个进程至少一个线程。

1）创建进程都是创建了哪些数据：

a. 文本区域：执行代码

b.数据区域：动态分配的内存页+存储变量

c. 堆栈，调用的函数和本地变量，堆由系统创建的函数和变量，堆是用户创建的函数和变量

这三点也叫作上下文。

2）进程的状态：就绪(排队)，运行，阻塞（等待I/O）

3）线程进程区别：

线程不拥有数据区域，由堆栈，多个线程共享进程的数据区域。线程的意义在于一个应用程序中有多个执行部分在同时进行。

4）用户态，内核态，系统调用，进程切换

用户态：只能访问3G的物理内存，不能访问低端内存区域。

内核态： cpu可以访问所有内存空间，包括外设

cpu由三个级别：ring0是内核，ring3是用户，12没有用到。

系统调用：当用户进程中需要执行内核代码时，例如fork，进程结束的exit，或者调用外设，进程执行init80h来进行系统调用，将cpu ring由3切换到0，进入低端内存区域执行内核程序，完成后切换回去。

用户态->内核态的方法：init80h系统调用，硬件中断，异常（例如缺页）。

进程切换：可以看到系统调用主要是cpu状态的切换，而系统进程不同，cpu经常需要挂起一个程序，恢复之前程序，内核保存A进程的上下文，切换到B进程。

进程切换与系统调用根本区别：看似差不多，但是系统调用只是cpu模式切换，上下文还是同一个进程，没有进程切换，调用结束查看队列如果有比当前进程优先级高的，保存当前进程，切换到新进程，改变上下文。

5） fork vfork clone cow

fork创建进程，子进程拥有父进程一样内存空间数据，返回值是pid，给予独立的虚拟内存线性地址，vfork创建进程不给虚拟地址空间，共享父进程的地址空间，这已经是线程的逻辑了，而clone是linux给予创建线程的函数，可以像vfork那样创建线程，也可以创建非父子关系的进程。

cow是写时复制，比如fork一个新进程，如果完全复制父进程的内存数据，而之后子进程并不修改页面，直接的复制白费了，所以用cow，类似存储的snapshoot，只是给于一个指针指向父进程的内存区域，如果有新的system call要写进程，再复制一份给他写，好处是如果只是读就不需要给他复制。进程结束不会立刻清理内存回磁盘，也是类似cow

6）僵尸进程

僵尸进程是已经结束的进程，不占用内存空间，无执行代码，不能被调度，尽在进程列表中留一个位置，记录了退出状态，占用pid，太多了的话不利于系统调度。

僵尸进程原因：子进程结束时，执行exit（）系统调用，内核释放该进程资源，包括打开的文件，占用的内存，但仍然会保留一定信息，包括pid，退出码，退出状态，运行时间，一直等到父进程通过wait函数来如这个状态后才会完全释放，僵尸进程就是父进程没有来取。

处理方法：

a, kill 父进程，成为孤儿进程，由init进程调用wait函数释放。

b. 父进程可以通过singal()信号通知内核，对子进程退出不关心，内核直接回收。

7）进程/线程同步

信号量：是进程间（线程间）同步用的，一个进程（线程）完成了某一个动作就通过信号量告诉别的进程（线程），别的进程（线程）再进行某些动作。有二值和多值信号量之分。

互斥锁：是线程间互斥用的，一个线程占用了某一个共享资源，那么别的线程就无法访问，直到这个线程离开，其他的线程才开始可以使用这个共享资源。可以把互斥锁看成二值信号量。

信号量主要适用于进程间通信，当然，也可用于线程间通信。而互斥锁只能用于线程间通信。

跟互斥锁一样，一个执行单元要想访问被自旋锁保护的共享资源，必须先得到锁，在访问完共享资源后，必须释放锁。如果在获取自旋锁时，没有任何执行单元保持该锁，那么将立即得到锁；如果在获取自旋锁时锁已经有保持者，那么获取锁操作将自旋在那里，直到该自旋锁的保持者释放了锁。由此我们可以看出，自旋锁是一种比较低级的保护数据结构或代码片段的原始方式，这种锁可能存在两个问题：死锁和过多占用cpu资源自旋锁比较适用于锁使用者保持锁时间比较短的情况。正是由于自旋锁使用者一般保持锁时间非常短，因此选择自旋而不是睡眠是非常必要的，自旋锁的效率远高于互斥锁。

自旋锁最多只能被一个可执行线程持有，如果一个执行线程试图请求一个已被争用（已经被持有）的自旋锁，那么这个线程就会一直进行忙循环——旋转——等待锁重新可用。要是锁未被争用，请求它的执行线程便能立刻得到它并且继续进行。自旋锁可以在任何时刻防止多于一个的执行线程同时进入临界区。
Linux中的信号量是一种睡眠锁。如果有一个任务试图获得一个已被持有的信号量时，信号量会将其推入等待队列，然后让其睡眠。这时处理器获得自由去执行其它代码。当持有信号量的进程将信号量释放后，在等待队列中的一个任务将被唤醒，从而便可以获得这个信号量。
信号量的睡眠特性，使得信号量适用于锁会被长时间持有的情况；只能在进程上下文中使用，因为中断上下文中是不能被调度的；另外当代码持有信号量时，不可以再持有自旋锁。

信号量解释：

信号量是一个计数器，进程/线程想要或许一个内存资源时，会先测试信号量，如果是正数代表可以用，如果是0代表不可用，用了以后，count-1, 用完count+1.

8）进程间通信

a.管道（pipe）

可以ls -al /proc/pid/fd （文件目录），里面的信息由：

1.该进程开启的文件

2. socket：后面有inode号，cat /proc/net/tcp会有这个inode的二进制IP:port，代表当前进程网络连接情况

3. pipe：后跟一个inode，当前进程就通过这个inode代表的pipe，与另一个进程同步，另一个进程也开启了这个inode的pipe。如果同一个fd下面有两个相同inode的pipe，可能是这个进程下的多线程。

9）信号

信号的类型

发出信号的原因很多，这里按发出信号的原因简单分类，以了解各种信号：

（1）与进程终止相关的信号。当进程退出，或者子进程终止时，发出这类信号。

（2）与进程例外事件相关的信号。如进程越界，或企图写一个只读的内存区域（如程序正文区），或执行一个特权指令及其他各种硬件错误。

（3）与在系统调用期间遇到不可恢复条件相关的信号。如执行系统调用exec时，原有资源已经释放，而目前系统资源又已经耗尽。

（4）与执行系统调用时遇到非预测错误条件相关的信号。如执行一个并不存在的系统调用。

（5）在用户态下的进程发出的信号。如进程调用系统调用kill向其他进程发送信号。

（6）与终端交互相关的信号。如用户关闭一个终端，或按下break键等情况。

（7）跟踪进程执行的信号。

Linux支持的信号列表如下。很多信号是与机器的体系结构相关的，首先列出的是POSIX.1中列出的信号：

信号值处理动作发出信号的原因

----------------------------------------------------------------------

SIGHUP 1 A 终端挂起或者控制进程终止

SIGINT 2 A 键盘中断（如break键被按下）

SIGQUIT 3 C 键盘的退出键被按下

SIGILL 4 C 非法指令

SIGABRT 6 C 由abort(3)发出的退出指令

SIGFPE 8 C 浮点异常

SIGKILL 9 AEF Kill信号

SIGSEGV 11 C 无效的内存引用

10）VFS

硬链接：其实就是同一个文件具有多个别名，具有相同inode，而dentry不同。

1. 文件具有相同的inode和data block；

2. 只能对已存在的文件进行创建；

3. 不同交叉文件系统进行硬链接的创建

4. 不能对目录进行创建，只能对文件创建硬链接

5. 删除一个硬链接并不影响其他具有相同inode号的文件；

软链接：软链接具有自己的inode，即具有自己的文件，只是这个文件中存放的内容是另一个文件的路径名。因此软链接具有自己的inode号以及用户数据块。

1. 软链接有自己的文件属性及权限等；

2. 软链接可以对不存在的文件或目录创建；

3. 软链接可以交叉文件系统；

4. 软链接可以对文件或目录创建；

5. 创建软链接时，链接计数i_nlink不会增加；

6. 删除软链接不会影响被指向的文件，但若指向的原文件被删除，则成死链接，但重新创建指向的路径即可恢复为正常的软链接，只是源文件的内容可能变了。

超级快：super block， dump2fs $df -h就能看到分区的超级快信息，是用于存储文件系统控制信息的数据结构，fs+block数目+inode数目，vfs是一个软件层，存在于内存。

例如cp ext2下的a文件到ext3下同下：

用户层read()->系统调用->sys_read->ext2文件系统下的读方法->物理介质->加载进内存->映射到b文件的内存地址->用ext3文件下系统下的写方法写到磁盘。

10）linux模块部署

几个命令和文件：

lsmod=cat/proc/modules

modprobe -i <.ko> 安装模块，根据modeules.dep里的依赖关系安装

modprobe -r <.ko> 删除模块

depmod：把新的驱动模块放到/lib/modules/内核/kernel/fs. net .sound，以后执行depmod,会生成相应模块的依赖关系，更新modules.dep文件。之后用上面命令安装

开机模块加载以及硬件扫描信息保存在dmesg中。

Linux内核学习总结

标签：linux

原文地址：http://10851095.blog.51cto.com/10841095/1948685

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行