Management Information Systems: Managing the Digital Firm
第 6 章 商业智能基础:数据库与信息管理 (Foundations of Business Intelligence: Databases and Information Management)
6-1 🗂️ 传统文件环境下管理数据资源的问题 (What are the problems of managing data resources in a traditional file environment?)
文件组织术语与概念
计算机系统中的数据以层级结构组织:
- 数据层级:从最小的数据单位开始,依次为位 (Bit)、字节 (Byte)、字段 (Field)、记录 (Record)、文件 (File),最后是数据库 (Database)。
- 实体与属性 (Entity and Attribute):一条记录描述一个实体(我们存储和维护其信息的个人、地点、事物或事件)。描述该实体的每个特征或品质称为一个属性。
传统文件环境的问题
在传统环境中,各职能部门(如会计、人力资源、销售)独立开发自己的系统和数据文件。随着时间的推移,这种分散的方法会导致一系列严重问题:
- 数据冗余与不一致 (Data Redundancy and Inconsistency)
- 数据冗余:指同一数据在多个数据文件中重复存储。这不仅浪费存储资源,更会导致数据不一致,即同一属性在不同地方有不同的值。
- 程序-数据依赖 (Program-Data Dependence)
- 指存储在文件中的数据与更新和维护这些文件的特定程序之间存在紧密的耦合关系。这意味着,如果数据格式发生变化(例如邮政编码从 5 位变为 9 位),所有依赖该数据的程序都必须进行修改,成本极高。
- 缺乏灵活性 (Lack of Flexibility)
- 传统文件系统很难及时响应非预期的信息需求或生成临时报告,因为数据分散在不同文件中,整合起来非常困难和昂贵。
- 安全性差 (Poor Security)
- 由于数据管理分散,对数据的访问和传播缺乏有效控制,管理层可能无法知晓谁在访问甚至修改组织的数据。
- 缺乏数据共享与可用性 (Lack of Data Sharing and Availability)
- 不同文件和部门中的信息无法相互关联,导致信息孤岛。这使得信息难以在不同职能领域之间共享,用户也可能因为数据不一致而不再信任系统。
6-2 🗃️ 数据库管理系统 (DBMS) 的主要功能及关系型 DBMS 的优势 (What are the major capabilities of database management systems (DBMS), and why is a relational DBMS so powerful?)
数据库管理系统 (DBMS)
- 定义:DBMS 是一种软件,它使组织能够集中数据、高效管理,并为应用程序提供访问数据的能力。它充当应用程序和物理数据文件之间的接口。
- 核心优势:DBMS 通过分离数据的逻辑视图(用户和业务专家感知数据的方式)和物理视图(数据在物理存储介质上的实际组织方式),解决了传统文件环境的诸多问题。它能有效控制数据冗余和不一致,解耦程序与数据,并集中管理数据、安全性和访问权限。
关系型 DBMS (Relational DBMS)
- 定义:这是当今最流行的数据库类型,它将数据表示为二维表格(称为关系)。
- 核心概念:
- 表 (Table):每个表包含关于一个实体及其属性的数据。表也称为文件。
- 行与列:表中的每一行代表一条记录 (Record),每一列代表一个字段 (Field) 或属性 (Attribute)。
- 主键 (Primary Key):每个表中都有一个键字段 (Key Field),其值对于表中每条记录都是唯一的,用作该记录的唯一标识符。
- 外键 (Foreign Key):是一个表中的字段,但它同时是另一个表的主键。外键用于将两个表关联起来。
- 关系型 DBMS 的三个基本操作:
- 选择 (Select):创建一个包含满足特定条件的所有记录的子集(即筛选行)。
- 连接 (Join):将多个相关的表组合起来,以提供比单个表更丰富的信息。
- 投影 (Project):创建一个只包含所需列的子集,从而生成一个新表。
DBMS 的主要功能
- 数据定义能力 (Data Definition Capability)
- 用于指定数据库内容的结构,创建数据表并定义每个字段的特征。
- 数据字典 (Data Dictionary)
- 一个自动化或手动的文件,用于存储数据元素的定义及其特征(如名称、描述、格式等)。
- 数据操纵语言 (Data Manipulation Language)
- 用于在数据库中添加、更改、删除和检索数据的专用语言。当今最重要的数据操纵语言是结构化查询语言 (Structured Query Language, SQL)。用户通过发出查询 (Query) 来请求数据。
设计数据库
- 概念设计与物理设计:数据库设计需要一个从业务角度出发的概念设计(或逻辑设计),以及一个描述数据如何实际存储的物理设计。
- 规范化 (Normalization):是从复杂的数据组中创建小型、稳定且灵活的数据结构的过程,旨在最小化数据冗余和笨拙的多对多关系。
- 实体-关系图 (Entity-Relationship Diagram, ERD):是数据库设计者用来记录数据模型的工具,它以图形方式描绘了数据库中实体(表)之间的关系。
- 参照完整性 (Referential Integrity):关系型数据库系统强制执行的一系列规则,以确保关联表之间的关系保持一致(例如,不允许创建一个指向不存在记录的外键)。
6-3 🔍 用于提升业务绩效与决策的数据库信息访问技术 (What are the principal tools and technologies for accessing information from databases to improve business performance and decision making?)
大数据的挑战 (The Challenge of Big Data)
- 定义:大数据 (Big Data) 是指数据量巨大,以至于传统 DBMS 难以捕获、存储和分析的数据集。
- 3V 特征:大数据通常由“3V”来定义:
- Volume (体量):数据规模巨大,通常在 PB 和 EB 级别。
- Variety (多样性):数据类型多样,包括结构化、半结构化和非结构化数据(如网页流量、社交媒体内容、传感器数据)。
- Velocity (速度):数据生成和处理的速度极快。
- 商业价值:大数据能够揭示比小数据集更多的模式和有趣关系,为企业提供关于客户行为、市场趋势等的全新洞察。
商业智能基础设施
为了从各种类型的数据(包括大数据)中获取价值,企业需要现代化的商业智能基础设施。
- 数据仓库与数据集市 (Data Warehouses and Data Marts)
- 数据仓库:是一个存储了整个公司当前和历史数据的数据库,这些数据来自多个核心业务系统,并经过整合和重组,专门用于管理报告和分析。
- 数据集市:是数据仓库的一个子集,其中包含了为特定用户群体(如市场或销售部门)汇总或高度聚焦的数据。
- Hadoop
- 一个开源软件框架,能够跨越数千台廉价计算机,对海量数据进行分布式并行处理。它非常适合处理各种类型的大数据。
- 内存计算 (In-Memory Computing)
- 主要依赖计算机的主内存 (RAM) 进行数据存储,而不是传统的磁盘存储。这极大地缩短了查询响应时间,使得对大型数据集的复杂计算几乎可以瞬时完成。
- 分析平台 (Analytic Platforms)
- 预先配置好的、专门用于查询处理和分析的软硬件集成系统,能够以比传统系统快 10 到 100 倍的速度处理复杂的分析查询。
分析工具:关系、模式与趋势
- 联机分析处理 (Online Analytical Processing, OLAP)
- 支持多维数据分析,使用户能够从不同维度(如产品、地区、时间)以不同方式查看相同的数据。OLAP 将数据呈现为一个可以“切片”和“切块”的“数据立方体”。
- 数据挖掘 (Data Mining)
- 一种更具探索性的分析方法,通过在大型数据库中寻找隐藏的模式和关系,并从中推断规则,来预测未来的行为。可发现的信息类型包括:
- 关联 (Associations):链接到单个事件的发生。
- 序列 (Sequences):随时间链接的事件。
- 分类 (Classification):识别描述项目所属群组的模式。
- 聚类 (Clustering):在没有预定义组的情况下发现数据中的不同分组。
- 预测 (Forecasting):使用一系列现有值来预测未来的值。
- 一种更具探索性的分析方法,通过在大型数据库中寻找隐藏的模式和关系,并从中推断规则,来预测未来的行为。可发现的信息类型包括:
- 文本挖掘与网络挖掘 (Text Mining and Web Mining)
- 文本挖掘:从非结构化文本数据(如电子邮件、调查问卷)中提取关键元素、发现模式和关系。情感分析 (Sentiment analysis) 是其一种应用,用于检测关于特定主题的正面或负面意见。
- 网络挖掘:从万维网中发现和分析有用的模式和信息,包括对网页内容、网站结构和用户使用行为的挖掘。
数据库与 Web
- 企业越来越多地通过 Web 向客户和合作伙伴提供其内部数据库中的信息。
- 用户通过 Web 浏览器或 App 发出请求,Web 服务器通过中间件 (Middleware)(如应用服务器)将请求转换为数据库可以理解的 SQL 命令,然后将查询结果以网页形式返回给用户。
6-4 🛡️ 数据治理与数据质量保证的重要性 (Why are data governance and data quality assurance essential for managing the firm's data resources?)
数据治理 (Data Governance)
- 定义:数据治理是指将数据作为组织资源进行管理的策略和流程。
- 内容:它为组织信息的共享、传播、获取、标准化、分类和盘点建立规则。这包括确定哪些用户可以共享信息、谁负责更新和维护信息,以及如何保护数据资源。
确保数据质量 (Assuring Data Quality)
- 问题的重要性:不准确、不及时或不一致的数据会给企业带来严重的运营和财务问题,导致错误的决策、产品召回甚至财务损失。
- 数据质量审计 (Data Quality Audit):是一种对信息系统中数据的准确性和完整性水平进行的结构化调查。
- 数据清理 (Data Cleansing / Data Scrubbing):是指检测和纠正数据库中不正确、不完整、格式不当或冗余的数据的活动。它不仅纠正错误,还强制执行不同数据集之间的一致性。
- 数据质量问题的根源:虽然数据库设计不当会导致问题,但大多数数据质量问题(如拼写错误、数字颠倒)源于数据输入过程中的错误。
6-5 💼 MIS 如何助力我的职业生涯 (How will MIS help my career?)
学习 MIS 对于希望从事数据分析等相关职业的求职者至关重要。
- 数据库与数据管理知识:MIS 提供了关于数据库、数据管理和数据查询(如使用 SAP 或 SQL)的核心知识,这是数据分析师职位的基本要求。
- 分析工具的熟练使用:熟练掌握 Microsoft Office 工具(尤其是 Access 和 Excel)进行数据分析和解决问题是必不可少的技能。
- 流程改进与问题解决:数据分析师不仅要处理数据,还要能够根据发现的数据问题,推荐并实施流程改进。MIS 课程培养了这种发现问题、分析问题并提出解决方案的能力。
- 业务理解能力:MIS 强调技术与业务的结合。求职者需要了解特定行业(如电力公司)的背景知识,才能进行有意义的数据分析和研究。
- 沟通与团队合作:数据分析师需要具备强大的沟通能力,以便清晰地呈现报告和摘要,并与团队有效协作。