Linux 简介
UNIX 是一个交互式系统,用于同时处理多进程和多用户同时在线。为什么要说 UNIX,那是因为 Linux 是由 UNIX 发展而来的,UNIX 是由程序员设计,它的主要服务对象也是程序员。Linux 继承了 UNIX 的设计目标。从智能手机到汽车,超级计算机和家用电器,从家用台式机到企业服务器,Linux 操作系统无处不在。
大多数程序员都喜欢让系统尽量简单,优雅并具有一致性。举个例子,从最底层的角度来讲,一个文件应该只是一个字节集合。为了实现顺序存取、随机存取、按键存取、远程存取只能是妨碍你的工作。相同的,如果命令
意味着只列出以 A 为开头的所有文件,那么命令
应该会移除所有以 A 为开头的文件而不是只删除文件名是 的文件。这个特性也是
最小吃惊原则一半常用于用户界面和软件设计。它的原型是:该功能或者特征应该符合用户的预期,不应该使用户感到惊讶和震惊。
一些有经验的程序员通常希望系统具有较强的功能性和灵活性。设计 Linux 的一个基本目标是每个应用程序只做一件事情并把他做好。所以编译器只负责编译的工作,编译器不会产生列表,因为有其他应用比编译器做的更好。
很多人都不喜欢冗余,为什么在 cp 就能描述清楚你想干什么时候还使用 copy完全是在浪费宝贵的 。为了从文件中提取所有包含字符串 的行,Linux 程序员应该输入
Linux 接口
Linux 系统是一种金字塔模型的系统,如下所示
Linux 上的 GUI 由 X 窗口支持,主要组成部分是 X 服务器、控制键盘、鼠标、显示器等。当在 Linux 上使用图形界面时,用户可以通过鼠标点击运行程序或者打开文件,通过拖拽将文件进行复制等。
Linux 组成部分
事实上,Linux 操作系统可以由下面这几部分构成
- :引导程序是管理计算机启动过程的软件,对于大多数用户而言,只是弹出一个屏幕,但其实内部操作系统做了很多事情
- :内核是操作系统的核心,负责管理 CPU、内存和外围设备等。
- :这是一个引导用户空间并负责控制守护程序的子系统。一旦从引导加载程序移交了初始引导,它就是用于管理引导过程的初始化系统。
- :后台进程顾名思义就是在后台运行的程序,比如打印、声音、调度等,它们可以在引导过程中启动,也可以在登录桌面后启动
- :这是在监视器上显示图形的子系统。通常将其称为 X 服务器或 X。
- :这是用户与之实际交互的部分,有很多桌面环境可供选择,每个桌面环境都包含内置应用程序,比如文件管理器、Web 浏览器、游戏等
- :桌面环境不提供完整的应用程序,就像 Windows 和 macOS 一样,Linux 提供了成千上万个可以轻松找到并安装的高质量软件。
Shell
尽管 Linux 应用程序提供了 GUI ,但是大部分程序员仍偏好于使用,称为。用户通常在 GUI 中启动一个 shell 窗口然后就在 shell 窗口下进行工作。
等用户输入一个命令后,shell 提取其中的第一个词,这里的词指的是被空格或制表符分隔开的一连串字符。假定这个词是将要运行程序的程序名,那么就会搜索这个程序,如果找到了这个程序就会运行它。然后 shell 会将自己挂起直到程序运行完毕,之后再尝试读入下一条指令。shell 也是一个普通的用户程序。它的主要功能就是读取用户的输入和显示计算的输出。shell 命令中可以包含参数,它们作为字符串传递给所调用的程序。比如
会调用 cp 应用程序并包含两个参数 和 。这个程序会解释第一个参数是一个已经存在的文件名,然后创建一个该文件的副本,名称为 dest。
并不是所有的参数都是文件名,比如下面
第一个参数 -20,会告诉 head 应用程序打印文件的前 20 行,而不是默认的 10 行。控制命令操作或者指定可选值的参数称为,按照惯例标志应该使用 来表示。这个符号是必要的,比如
是一个完全合法的命令,它会告诉 head 程序输出文件名为 20 的文件的前 10 行,然后输出文件名为 file 文件的前 10 行。Linux 操作系统可以接受一个或多个参数。
为了更容易的指定多个文件名,shell 支持 ,也被称为。比如, 可以匹配一个或者多个可能的字符串
告诉 ls 列举出所有文件名以 结束的文件。如果同时存在多个文件,则会在后面进行并列。
另一个通配符是问号,负责匹配任意一个字符。一组在中括号中的字符可以表示其中任意一个,因此
会列举出所有以 、 或者 开头的文件。
shell 应用程序不一定通过终端进行输入和输出。shell 启动时,就会获取 标准输入、标准输出、标准错误文件进行访问的能力。
标准输出是从键盘输入的,标准输出或者标准错误是输出到显示器的。许多 Linux 程序默认是从标准输入进行输入并从标准输出进行输出。比如
会调用 sort 程序,会从终端读取数据(直到用户输入 ctrl-d 结束),根据字母顺序进行排序,然后将结果输出到屏幕上。
通常还可以重定向标准输入和标准输出,重定向标准输入使用 后面跟文件名。标准输出可以通过一个大于号 进行重定向。允许一个命令中重定向标准输入和输出。例如命令
会使 sort 从文件 in 中得到输入,并把结果输出到 out 文件中。由于标准错误没有重定向,所以错误信息会直接打印到屏幕上。从标准输入读入,对其进行处理并将其写入到标准输出的程序称为 。
考虑下面由三个分开的命令组成的指令
首先会调用 sort 应用程序,从标准输入 in 中进行读取,并通过标准输出到 temp。当程序运行完毕后,shell 会运行 head ,告诉它打印前 30 行,并在标准输出(默认为终端)上打印。最后,temp 临时文件被删除。轻轻的,你走了,你挥一挥衣袖,不带走一片云彩。
命令行中的第一个程序通常会产生输出,在上面的例子中,产生的输出都不 temp 文件接收。然而,Linux 还提供了一个简单的命令来做这件事,例如下面
上面 称为竖线符号,它的意思是从 sort 应用程序产生的排序输出会直接作为输入显示,无需创建、使用和移除临时文件。由管道符号连接的命令集合称为。例如如下
对任意以 结尾的文件中包含 的行被写到标准输出中,然后进行排序。这些内容中的前 30 行被 head 出来并传给 tail ,它又将最后 5 行传递给 foo。这个例子提供了一个管道将多个命令连接起来。
可以把一系列 shell 命令放在一个文件中,然后将此文件作为输入来运行。shell 会按照顺序对他们进行处理,就像在键盘上键入命令一样。包含 shell 命令的文件被称为 。
推荐一个 shell 命令的学习网站:https://www.shellscript.sh/
shell 脚本其实也是一段程序,shell 脚本中可以对变量进行赋值,也包含循环控制语句比如 if、for、while 等,shell 的设计目标是让其看起来和 C 相似(There is no doubt that C is father)。由于 shell 也是一个用户程序,所以用户可以选择不同的 shell。
Linux 应用程序
Linux 的命令行也就是 shell,它由大量标准应用程序组成。这些应用程序主要有下面六种
- 文件和目录操作命令
- 过滤器
- 文本程序
- 系统管理
- 程序开发工具,例如编辑器和编译器
- 其他
除了这些标准应用程序外,还有其他应用程序比如 Web 浏览器、多媒体播放器、图片浏览器、办公软件和游戏程序等。
我们在上面的例子中已经见过了几个 Linux 的应用程序,比如 sort、cp、ls、head,下面我们再来认识一下其他 Linux 的应用程序。
我们先从几个例子开始讲起,比如
是将 a 复制一个副本为 b ,而
是将 a 移动到 b ,但是删除原文件。
上面这两个命令有一些区别, 是将文件进行复制,复制完成后会有两个文件 a 和 b;而 相当于是文件的移动,移动完成后就不再有 a 文件。 命令可以把多个文件内容进行连接。使用 可以删除文件;使用 可以允许所有者改变访问权限;文件目录的的创建和删除可以使用 和 命令;使用 可以查看目录文件,ls 可以显示很多属性,比如大小、用户、创建日期等;sort 决定文件的显示顺序
Linux 应用程序还包括过滤器 grep, 从标准输入或者一个或多个输入文件中提取特定模式的行; 将输入进行排序并输出到标准输出; 提取输入的前几行;tail 提取输入的后面几行;除此之外的过滤器还有 和 ,允许对文本行的剪切和复制; 将输入转换为 ASCII ; 实现字符大小写转换; 为格式化打印输出等。
程序编译工具使用 ;
命令用于自动编译,这是一个很强大的命令,它用于维护一个大的程序,往往这类程序的源码由许多文件构成。典型的,有一些是 ,源文件通常使用 指令包含这些文件,make 的作用就是跟踪哪些文件属于头文件,然后安排自动编译的过程。
下面列出了 POSIX 的标准应用程序
程序 | 应用 |
---|---|
ls | 列出目录 |
cp | 复制文件 |
head | 显示文件的前几行 |
make | 编译文件生成二进制文件 |
cd | 切换目录 |
mkdir | 创建目录 |
chmod | 修改文件访问权限 |
ps | 列出文件进程 |
pr | 格式化打印 |
rm | 删除一个文件 |
rmdir | 删除文件目录 |
tail | 提取文件最后几行 |
tr | 字符集转换 |
grep | 分组 |
cat | 将多个文件连续标准输出 |
od | 以八进制显示文件 |
cut | 从文件中剪切 |
paste | 从文件中粘贴 |
Linux 内核结构
在上面我们看到了 Linux 的整体结构,下面我们从整体的角度来看一下 Linux 的内核结构
Linux 是一个多道程序设计系统,因此系统中存在彼此相互独立的进程同时运行。此外,每个用户都会同时有几个活动的进程。因为如果是一个大型系统,可能有数百上千的进程在同时运行。
在某些用户空间中,即使用户退出登录,仍然会有一些后台进程在运行,这些进程被称为 。
Linux 中有一种特殊的守护进程被称为 ,计划守护进程可以每分钟醒来一次检查是否有工作要做,做完会继续回到睡眠状态等待下一次唤醒。
Linux 进程间通信
Linux 进程间的通信机制通常被称为 下面我们来说一说 Linux 进程间通信的机制,大致来说,Linux 进程间的通信机制可以分为 6 种
进程可以选择忽略发送过来的信号,但是有两个是不能忽略的: 和 信号。SIGSTOP 信号会通知当前正在运行的进程执行关闭操作,SIGKILL 信号会通知当前进程应该被杀死。除此之外,进程可以选择它想要处理的信号,进程也可以选择阻止信号,如果不阻止,可以选择自行处理,也可以选择进行内核处理。如果选择交给内核进行处理,那么就执行默认处理。
操作系统会中断目标程序的进程来向其发送信号、在任何非原子指令中,执行都可以中断,如果进程已经注册了新号处理程序,那么就执行进程,如果没有注册,将采用默认处理的方式。
例如:当进程收到 浮点异常的信号后,默认操作是对其进行 和退出。信号没有优先级的说法。如果同时为某个进程产生了两个信号,则可以将它们呈现给进程或者以任意的顺序进行处理。
下面我们就来看一下这些信号是干什么用的
- SIGABRT 和 SIGIOT
SIGABRT 和 SIGIOT 信号发送给进程,告诉其进行终止,这个 信号通常在调用 C标准库的函数时由进程本身启动
- SIGALRM 、 SIGVTALRM、SIGPROF
当设置的时钟功能超时时会将 SIGALRM 、 SIGVTALRM、SIGPROF 发送给进程。当实际时间或时钟时间超时时,发送 SIGALRM。 当进程使用的 CPU 时间超时时,将发送 SIGVTALRM。 当进程和系统代表进程使用的CPU 时间超时时,将发送 SIGPROF。
- SIGBUS
SIGBUS 将造成错误时发送给进程
- SIGCHLD
当子进程终止、被中断或者被中断恢复,将 SIGCHLD 发送给进程。此信号的一种常见用法是指示操作系统在子进程终止后清除其使用的资源。
- SIGCONT
SIGCONT 信号指示操作系统继续执行先前由 SIGSTOP 或 SIGTSTP 信号暂停的进程。该信号的一个重要用途是在 Unix shell 中的作业控制中。
- SIGFPE
SIGFPE 信号在执行错误的算术运算(例如除以零)时将被发送到进程。
- SIGUP
当 SIGUP 信号控制的终端关闭时,会发送给进程。许多守护程序将重新加载其配置文件并重新打开其日志文件,而不是在收到此信号时退出。
- SIGILL
SIGILL 信号在尝试执行非法、格式错误、未知或者特权指令时发出
- SIGINT
当用户希望中断进程时,操作系统会向进程发送 SIGINT 信号。用户输入 ctrl – c 就是希望中断进程。
- SIGKILL
SIGKILL 信号发送到进程以使其马上进行终止。 与 SIGTERM 和 SIGINT 相比,这个信号无法捕获和忽略执行,并且进程在接收到此信号后无法执行任何清理操作,下面是一些例外情况
僵尸进程无法杀死,因为僵尸进程已经死了,它在等待父进程对其进行捕获
处于阻塞状态的进程只有再次唤醒后才会被 kill 掉
进程是 Linux 的初始化进程,这个进程会忽略任何信号。
SIGKILL 通常是作为最后杀死进程的信号、它通常作用于 SIGTERM 没有响应时发送给进程。
- SIGPIPE
SIGPIPE 尝试写入进程管道时发现管道未连接无法写入时发送到进程
- SIGPOLL
当在明确监视的文件描述符上发生事件时,将发送 SIGPOLL 信号。
- SIGRTMIN 至 SIGRTMAX
SIGRTMIN 至 SIGRTMAX 是
- SIGQUIT
当用户请求退出进程并执行核心转储时,SIGQUIT 信号将由其控制终端发送给进程。
- SIGSEGV
当 SIGSEGV 信号做出无效的虚拟内存引用或分段错误时,即在执行分段违规时,将其发送到进程。
- SIGSTOP
SIGSTOP 指示操作系统终止以便以后进行恢复时
- SIGSYS
当 SIGSYS 信号将错误参数传递给系统调用时,该信号将发送到进程。
- SYSTERM
我们上面简单提到过了 SYSTERM 这个名词,这个信号发送给进程以请求终止。与 SIGKILL 信号不同,该信号可以被过程捕获或忽略。这允许进程执行良好的终止,从而释放资源并在适当时保存状态。 SIGINT 与SIGTERM 几乎相同。
- SIGTSIP
SIGTSTP 信号由其控制终端发送到进程,以请求终端停止。
- SIGTTIN 和 SIGTTOU
当 SIGTTIN 和SIGTTOU 信号分别在后台尝试从 tty 读取或写入时,信号将发送到该进程。
- SIGTRAP
在发生异常或者 trap 时,将 SIGTRAP 信号发送到进程
- SIGURG
当套接字具有可读取的紧急或带外数据时,将 SIGURG 信号发送到进程。
- SIGUSR1 和 SIGUSR2
SIGUSR1 和 SIGUSR2 信号被发送到进程以指示用户定义的条件。
- SIGXCPU
当 SIGXCPU 信号耗尽 CPU 的时间超过某个用户可设置的预定值时,将其发送到进程
- SIGXFSZ
当 SIGXFSZ 信号增长超过最大允许大小的文件时,该信号将发送到该进程。
- SIGWINCH
SIGWINCH 信号在其控制终端更改其大小(窗口更改)时发送给进程。
管道 pipe
Linux 系统中的进程可以通过建立管道 pipe 进行通信。
在两个进程之间,可以建立一个通道,一个进程向这个通道里写入字节流,另一个进程从这个管道中读取字节流。管道是同步的,当进程尝试从空管道读取数据时,该进程会被阻塞,直到有可用数据为止。shell 中的 就是用管道实现的,当 shell 发现输出
它会创建两个进程,一个是 sort,一个是 head,sort,会在这两个应用程序之间建立一个管道使得 sort 进程的标准输出作为 head 程序的标准输入。sort 进程产生的输出就不用写到文件中了,如果管道满了系统会停止 sort 以等待 head 读出数据
在使用共享内存前,需要经过一系列的调用流程,流程如下
- 创建共享内存段或者使用已创建的共享内存段
- 将进程附加到已经创建的内存段中
- 从已连接的共享内存段分离进程
- 对共享内存段执行控制操作
先入先出队列 FIFO
先入先出队列 FIFO 通常被称为 ,命名管道的工作方式与常规管道非常相似,但是确实有一些明显的区别。未命名的管道没有备份文件:操作系统负责维护内存中的缓冲区,用来将字节从写入器传输到读取器。一旦写入或者输出终止的话,缓冲区将被回收,传输的数据会丢失。相比之下,命名管道具有支持文件和独特 API ,命名管道在文件系统中作为设备的专用文件存在。当所有的进程通信完成后,命名管道将保留在文件系统中以备后用。命名管道具有严格的 FIFO 行为
exec 系统调用是一些函数的集合,这些函数是
- execl
- execle
- execlp
- execv
- execve
- execvp
下面来看一下 exec 的工作原理
- 当前进程映像被替换为新的进程映像
- 新的进程映像是你做为 exec 传递的灿睡
- 结束当前正在运行的进程
- 新的进程映像有 PID,相同的环境和一些文件描述符(因为未替换进程,只是替换了进程映像)
- CPU 状态和虚拟内存受到影响,当前进程映像的虚拟内存映射被新进程映像的虚拟内存代替。
waitpid
等待子进程结束或终止
exit
在许多计算机操作系统上,计算机进程的终止是通过执行 系统调用命令执行的。0 表示进程能够正常结束,其他值表示进程以非正常的行为结束。
其他一些常见的系统调用如下
系统调用指令 | 描述 |
---|---|
pause | 挂起信号 |
nice | 改变分时进程的优先级 |
ptrace | 进程跟踪 |
kill | 向进程发送信号 |
pipe | 创建管道 |
mkfifo | 创建 fifo 的特殊文件(命名管道) |
sigaction | 设置对指定信号的处理方法 |
msgctl | 消息控制操作 |
semctl | 信号量控制 |
Linux 进程和线程的实现
Linux 进程
在 Linux 内核结构中,进程会被表示为 ,通过结构体 来创建。不像其他的操作系统会区分进程、轻量级进程和线程,Linux 统一使用任务结构来代表执行上下文。因此,对于每个单线程进程来说,单线程进程将用一个任务结构表示,对于多线程进程来说,将为每一个用户级线程分配一个任务结构。Linux 内核是多线程的,并且内核级线程不与任何用户级线程相关联。
对于每个进程来说,在内存中都会有一个 进程描述符与之对应。进程描述符包含了内核管理进程所有有用的信息,包括 调度参数、打开文件描述符等等。进程描述符从进程创建开始就一直存在于内核堆栈中。
Linux 和 Unix 一样,都是通过 来区分不同的进程,内核会将所有进程的任务结构组成为一个双向链表。PID 能够直接被映射称为进程的任务结构所在的地址,从而不需要遍历双向链表直接访问。
我们上面提到了进程描述符,这是一个非常重要的概念,我们上面还提到了进程描述符是位于内存中的,这里我们省略了一句话,那就是进程描述符是存在用户的任务结构中,当进程位于内存并开始运行时,进程描述符才会被调入内存。
被称为 ,这是冯诺伊曼体系架构的一种体现,加载到内存中并执行的程序称为进程。简单来说,一个进程就是正在执行的程序。
进程描述符可以归为下面这几类
- :进程优先级、最近消耗 CPU 的时间、最近睡眠时间一起决定了下一个需要运行的进程
- :我们上面说到,进程映像是执行程序时所需要的可执行文件,它由数据和代码组成。
- :显示哪些信号被捕获、哪些信号被执行
- :当发生内核陷入 (trap) 时,寄存器的内容会被保存下来。
- :当前系统调用的信息,包括参数和结果
- :有关文件描述符的系统被调用时,文件描述符作为索引在文件描述符表中定位相关文件的 i-node 数据结构
- :记录用户、进程占用系统 CPU 时间表的指针,一些操作系统还保存进程最多占用的 CPU 时间、进程拥有的最大堆栈空间、进程可以消耗的页面数等。
- :进程的内核部分可以使用的固定堆栈
- : 当前进程状态、事件等待时间、距离警报的超时时间、PID、父进程的 PID 以及用户标识符等
有了上面这些信息,现在就很容易描述在 Linux 中是如何创建这
来源:程序员cxuan
声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!