Reliability in Computer System Design (Book)

Edition

Dr. Dhillon is a full professor in the Faculty of Science and Engineering, University of Ottawa.

He attended the University of Wales where he received a B.Sc. in Electrical and Electronic Engineering and a M.Sc. in Industrial and Systems Engineering. His Ph.D. in Reliability Engineering was received from the University of Windsor. He wrote his doctoral thesis on reliability evaluation of networks composed of three state devices. He is Advisory Editor of "Microelectronics and Reliability: An International Journal", Associate Editor of "International Journal of Energy Systems", and Editor-at-Large for Engineering Books (Marcel Dekker, Inc.). Dr. Dhillon served as an associate editor of the 10-13th Annual Modeling and Simulation Proceedings, Pittsburgh, Pennsylvania, USA. He has published over 170 articles on Reliability Engineering as well as nine books on various aspects of Engineering Reliability and related areas. Three of his books are translated into Russian and Chinese.

Serving as a referee to many national and international journals, book publishers and other bodies, he has presented keynote and invited lectures at various national and international conferences. Dr. Dhillon has several years of experience in electronics and nuclear power industries.

He is recipient of the American Society for Quality Control's Austin J. Bonis Reliability Award and the Society of Reliability Engineers' Merit Award, as well as several appreciation certificates from various American professional societies. A registered Professional Engineering in Ontario, Professor Dhillon is listed in the American Men and Women of Science, Dictionary of International Biography, Men of Achievement, Who's Who in Technology, Personalities of America, etc.

     BIOGRAPHY OF THE AUTHOR                    xi

     

     PREFACE                    xii

 

1.          INTRODUCTION                    1

 

1.1          Need for Reliability                    1

1.2          History of Computer System Reliability                    1

1.2.1       Software Reliability                    2

1.3          Terms and Definitions                    3

1.4          Scope of the Text                    4

1.5          Summary                    4

1.6          Exercises                    5

1.7          References                    5

 

2.          BASIC RELIABILITY MATHEMATICS                    9

             FOR COMPUTER SYSTEMS

2.1        Introduction                    9

2.2        Probability                    9

2.2.1     Properties of Probability                    10

2.3        Probability Distributions                    11

2.3.1     Continuous Distributions                    11

2.3.2     Discrete Distributions                    15

2.4        Laplace Transforms                    17

2.5        Final Value Theorem                    19

2.6        Markov Modeling                    21

2.7        The Method of Maximum Likelihood                    23

2.8        Summary                    25

2.9        Exercises                    25

2.10      References                    26

 

3.          INTRODUCTION TO QUALITY CONTROL

             AND RELIABILITY                    27

3.1        Introduction                    27

3.2        Quality Control                    27

3.2.1     Acceptance Sampling                    28

3.2.2     Inspection Related Formulas                    28

3.2.3     Control Charts                    30

3.2.4     Activities of a Quality Control Department                    30

3.3        Basic Reliability Concepts                    31

3.3.1     General Reliability Function                    31

3.3.2     Failure Rate Models for Parts and Equipment                    35

3.3.3     Reliability Configurations                    36

3.3.4     Fault Trees                    47

3.4        Comparative Reliability Analysis of Simplex and                    51 

             Redundant Systems

3.4.1     Analysis                    52

3.4.2     Time-Dependent Analysis                    59

3.5        Reliability Analysis of a Triple-Modular Redundant                    62

             System with Repair

3.6        Summary                    68

3.7        Exercises                    68

3.8        References                    69

 

4.          COMPUTER FAILURES                    71

4.1        Introduction                    71

4.2        Causes of Computer Failures                    71

4.3        Computer System Error Recovery Philosophies                    72

4.4        Peripheral Device Errors                    75

4.5        Computer Software Failures                    75

4.5.1     Selected Definitions                    76

4.5.2     Failure Modes of the Software System                    76

4.5.3     Classification of Errors in Programming                    78

4.5.4     Human Errors in Software Development                    79

4.5.5     Software Error Cost Analysis                    82

4.6        Software and Hardware Reliability                    83

4.7        Summary                    84

4.8        Exercises                    85

4.9        References                    86

 

5.          INTRODUCTION TO COMPUTER SYSTEM                    87

             RELIABILITY MODELING

5.1        Introduction                    87

5.2        Issues in Computer System Reliability                    87

5.3        Redundant Computer Systems                    88

5.4        Reliability Measures for Computers                    88

5.5        Formulas for System Availability and                    89

             Computing Efficiency

5.6        Markov Modeling of Computer Associated Systems                    90

5.6.1     Model I                    90

5.6.2     Model II                    93

5.6.3     Model III                    97

5.7        Reliability Analysis of a Redundant System                    99

5.8        Summary                    100

5.9        Exercises                    101

5.10      References                    101

 

6.          RELIABILITY ANALYSIS OF COMPUTER SYSTEMS                    103

6.1        Introduction                    103

6.2        Redundancy Schemes for Computer Systems                    103

6.2.1     Scheme Type I                    103

6.2.2     Scheme Type II                    104

6.2.3     Scheme Type III                    104

6.2.4     Scheme Type IV                    106

6.2.5     Scheme Type V                    107

6.2.6     Scheme Type VI                    111

6.3        Reliability Evaluation of a Multi-Mini-                    115

             Processor Computer

6.4        Reliability Analysis of Repairable Systems                    115

6.4.1     Model I                    116

6.4.2     Model II                    118

6.5        Reliability Evaluation of a Computer System                    120

6.6        Summary                    126

6.7        Exercises                    127

6.8        References                    127

 

7.          MICROCOMPUTER SYSTEM RELIABILITY ANALYSIS                    129

             AND QUEUING THEORY

7.1        Introduction                    129

7.2        Microcomputers                    130

7.2.1     Microcomputers and Related Products                    130

7.2.2     Reliability Analysis of Microcomputer Systems                    131

             with Triple-Modular Redundancy

7.3        Queuing Theory                    135

7.3.1     Important Laws and Formulas                    135

7.3.2     Selective Queuing Theory Models                    139

7.4        Summary                    145

7.5        Exercises                    146

7.6        References                    146 

 

8.          ADDITIONAL TOPICS IN COMPUTER                    149

             HARDWARE RELIABILITY

8.1        Introduction                    149

8.2        Reliability Analysis of Computer Systems with                    150

             Common-Cause Failures

8.3        Computer System Life Cycle Costing                    156

8.4        Integrated Circuit Defects                    159

8.5        Reliability Analysis of Space Computers                    160

8.6        Computer Memory Reliability Modeling                    163

8.7        Summary                    165

8.8        Exercises                    165

8.9        References                    166 

 

9.          SOFTWARE QUALITY MANAGEMENT                    167

9.1        Introduction                    167

9.2        The Software Quality Assurance Program                    167

9.2.1     Functions of Software Quality Assurance                    168

9.2.2     Ten Components of a Successful Software Quality                    171

             Assurance Program

9.2.3     Software Design Reviews and Reasons for High                    172

             Software Cost

9.2.4     Factors Responsible for the Software                    173

             Development Problem

9.3        Software Quality Assurance Organization                    173

9.3.1     Responsibilities and Qualifications of a                    173

             Software Quality Assurance Manager

9.3.2     Attributes of a Good Software Quality                    174

             Assurance Engineer

9.4        Software Configuration Management                    175

9.4.1     Advantages of Software Configuration Management                    176

9.5        Software Quality Assurance Standards                    176

9.6        Software Quality Assurance Benefits                    177

9.7        Summary                    178

9.8        Exercises                    178

9.9        References                    179 

 

10.        SOFTWARE DESIGN AND TESTING                    181

10.1      Introduction                    181

10.2      Software Life Cycle                    181

10.3      Tools of the Programming Trade                    183

10.3.1   Development Tools                    183

10.3.2   Test and Evaluation Tools                    183

10.3.3   Operations and Maintenance Tools                    184

10.4      Software Design Methods                    184

10.4.1   Design Quality Measures                    185

10.4.2   Design Representation Tools                    186

10.4.3   Design Techniques                    186

10.5      Software Testing                    189

10.5.1   Elements of a Good Test Plan                    190

10.5.2   Characteristics of a Simple and Super Complex                    190

             Programs

10.5.3   Types of Testing                    191

10.5.4   Program Automated Testing Tools                    193

10.6      Software Problem Symptoms and Causes                    194

10.7      Summary                    195

10.8      Exercises                    196

10.9      References                    196 

 

11.        SOFTWARE RELIABILITY MODELING                    199

11.1      Introduction                    199

11.2      A Brief History of Software Reliability Models                    199

11.3      Classification of Software Reliability Models                    201

11.4      Software Reliability Models                    202

11.4.1   Model I                    202

11.4.2   Model II                   204

11.4.3   Model III                  207

11.4.4   Model IV                   209

11.4.5   Model V                    211

11.4.6   Model VI                   212

11.5      Summary                  214

11.6      Exercises                   215

11.7      References                   215 

 

12.        SOFTWARE MODELS                    217

12.1      Introduction                    217

12.2      Selected Mathematical Models                    217

12.2.1   Model I                    217

12.2.2   Model II                   218

12.2.3   Model III                  219

12.2.4   Model IV                   220

12.2.5   Model V                    220

12.2.6   Model VI                   221

12.2.7   Model VII                  223

12.2.8   Model VIII                 223

12.2.9   Model IX                    224

12.2.10 Model X                      225

12.2.11 Model XI                     227

12.2.12 Model XII                    227

12.2.13 Model XIII                   228

12.2.14 Model XIV                   229

12.2.15 Model XV                    229

12.2.16 Model XVI                   230

12.3      Summary                   230

12.4      Exercises                    231

12.5      References                    232 

 

             APPENDIX                    233

A.1        Introduction                    233

A.2        Computer Hardware Reliability                    233

A.3        Computer Software Reliability                    253

 

             AUTHOR INDEX                    275

      

             SUBJECT INDEX                    279

 

 

        

Related Titles