目前分類:Data Mining (42)

瀏覽方式: 標題列表 簡短摘要

The most popular data model for a data warehouse is a multidimensional model.Such a model can exist in the form of a star schema, a snowflake schema, or a fact constellation

schema. Let’s look at each of these schema types.

Star schema: The most common modeling paradigm is the star schema, in which the data warehouse contains (1) a large central table (fact table) containing the bulk of the data, with no redundancy, and (2) a set of smaller attendant tables (dimension tables), one for each dimension. The schema graph resembles a starburst, with the dimension tables displayed in a radial pattern around the central fact table.

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

作者:薛薇 發表于《統計與精算》2001-3一、資料採礦的概念

  隨著資料庫技術的飛速發展以及資料庫管理系統的廣泛應用,各個企業和部門通過自己的資料庫管理系統,經過長年努力,已經積累了越來越多的資料。於是,人們開始渴望通過對這些龐大的資料分析得到更多的有助於決策的資訊。雖然,目前的資料庫系統可以高效率地實現資料的錄入、查詢、統計等功能,但由於資料量龐大以及資料庫系統中分析方法的嚴重缺乏,使得它無法發現資料中隱藏的相互聯繫,更無法根據當前的資料去預測未來的發展趨勢。因此,出現了所謂「資料多,知識少」的現象,造成了嚴重的資源浪費。

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

一,概念和術語
1.1 資料採礦 / 知識發現
(1)資料採礦是從存放在資料集中的大量資料採礦出有趣知識的過程.

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

關係資料庫集群技術分為兩類:一類是基於資料庫引擎的資料庫集群,另外一類是基於關係資料庫集群中介軟體的資料庫集群。

基於資料庫引擎的資料庫集群的典型代表是ORALCE RAC、TERADATA ,資料庫集群中介軟體則包括:MySQL Proxy、c-jdbc、變形蟲等。從理論上將基於資料庫引擎的資料庫集群屬於並行資料庫,而基於中介軟體的資料庫集群屬於分散式資料庫。

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

When visitors interact with your site, they provide information about themselves and how they respond to your content: which links visitors click, where they spend most of their time, which search terms they use, and when they browse. Some visitors may even fill out a lifestyle survey or provide names and addresses. Complex content also contains important information, such as words in articles, job descriptions and resumes, and features of competitive or complementary products. All this information is often stored in a database.

As a result, you have a lot of information on your Web visitors and content, but you probably aren't making the best use of it. Data warehouse reporting systems, such as those provided by traffic analyzers, aggregate and report facts over different dimensions. (See my article titled "Tracking Users," Web Techniques, July 1999.)

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

1. 引言

資料採礦(data mining)是從大量的、不完全的、有雜訊的、模糊的、隨機的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。隨著資訊技術的高速發展,人們積累的資料量急劇增長,動輒以tb計,如何從海量的資料中提取有用的知識成為當務之急。資料採礦就是為順應這種需要應運而生髮展起來的資料處理技術。是知識發現(knowledge discovery in database)的關鍵步驟。

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

作者:薛薇 發表于《中國電腦使用者》2003-1
  當今資料容量規模已經達到萬億位元組(TB)的水準。過量的資料被人們稱為資訊爆炸,帶來的挑戰是:一方面規模龐大、紛繁複雜的資料體系讓消費者漫無頭緒、無從下手;另一方面在這些大量資料的背後卻隱藏著很多具有決策意義的有價值的資訊。那麼,如何發現這些有用的知識,使之為管理決策和經營戰略發展服務?電腦科學給出的最新回答是:資料採礦(Data Mining)。
  一般說來,資料採礦是一個利用各種分析方法和分析工具在大規模海量資料中建立模型和發現資料間關係的過程,這些模型和關係可以用來做出決策和預測。支援大規模資料分析的方法和過程,選擇或者建立一種適合資料採礦應用的資料環境是資料採礦研究的重要課題之一。

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 2006年12月評選出了資料採礦領域的十大經典演算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.

不僅僅是選中的十大演算法,其實參加評選的18種演算法,實際上隨便拿出一種來都可以稱得上是經典演算法,它們在資料採礦領域都產生了極為深遠的影響。

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

從廣義上看,資料分析可以分成驗證型分析和挖掘型分析。其中,多維查詢和OLAP可以非常方便地觀察系統的實際情況,以便確定某種假設是否成立,因此屬於驗證型的範疇。資料採礦是在大量資料中由未知發現知識,因而屬於挖掘型分析的範疇。從這一章開始,進入商業智慧更深一層次的應用----資料採礦。對資料採礦分成兩章來學習,這一章主要學習資料採礦的原理和在SQL Server 2005中的基本操作,而資料採礦在商業中的應用留到下一章具體闡釋。

隨著資料庫應用的普及,人們正逐步陷入」資料豐富,知識貧乏」的尷尬境地。而近年來互聯網的發展與快速普及,使得人類第一次真正體會到了資料海洋的無邊無際。面對如此巨大的資料來源,人們迫切需要一種新技術和自動工具可以説明我們科學地進行各種決策。資料採礦技術就是這一類技術。

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

資料採礦是從大量的資料中,抽取出潛在的、有價值的知識(模型或規則)的過程。

1. 資料採礦能做什麼?

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

近十幾年,隨著科學技術飛速的發展,經濟和社會都取得了極大的進步,與此同時,在各個領域產生了大量的資料,如人類對太空的探索,銀行每天的巨額交易資料。顯然在這些資料中豐富的資訊,如何處理這些資料得到有益的資訊,人們進行了有益的探索。電腦技術的迅速發展使得處理資料成為可能,這就推動了資料庫技術的極大發展,但是面對不斷增加如潮水般的資料,人們不再滿足于資料庫的查詢功能,提出了深層次問題:能不能從資料中提取資訊或者知識為決策服務。就資料庫技術而言已經顯得無能為力了,同樣,傳統的統計技術也面臨了極大的挑戰。這就急需有新的方法來處理這些海量般的資料。於是,人們結合統計學、資料庫、機器學習等技術,提出資料採礦來解決這一難題。

資料採礦的含義和作用

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

CRISP-DM (cross-industry standard process for data mining), 即為"跨行業資料採礦過程標準". 此KDD過程模型于1999年歐盟機構聯合起草. 通過近幾年的發展,CRISP-DM 模型在各種KDD過程模型中佔據領先位置,採用量達到近60%。
1288592443382456557  

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

Clustering is the classification of objects into different groups, or more precisely, the partitioning of a data set into subsets (clusters), so that the data in each subset (ideally) share some common trait - often proximity according to some defined distance measure. Data clustering is a common technique for statistical data analysis, which is used in many fields, including machine learning, data mining, pattern recognition, image analysis and bioinformatics. The computational task of classifying the data set into k clusters is often referred to as k-clustering.
Besides the term data clustering (or just clustering), there are a number of terms with similar meanings, including cluster analysis, automatic classification, numerical taxonomy, botryology and typological analysis.
Data clustering algorithms can be hierarchical. Hierarchical algorithms find successive clusters using previously established clusters. Hierarchical algorithms can be agglomerative ("bottom-up") or divisive ("top-down"). Agglomerative algorithms begin with each element as a separate cluster and merge them into successively larger clusters. Divisive algorithms begin with the whole set and proceed to divide it into successively smaller clusters.

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

Three hours after I gave my name and e-mail address to Michael Fertik, the CEO of Reputation.com, he called me back and read my Social Security number to me. "We had it a couple of hours ago," he said. "I was just too busy to call."

In the past few months, I have been told many more-interesting facts about myself than my Social Security number. I've gathered a bit of the vast amount of data that's being collected both online and off by companies in stealth — taken from the websites I look at, the stuff I buy, my Facebook photos, my warranty cards, my customer-reward cards, the songs I listen to online, surveys I was guilted into filling out and magazines I subscribe to.

Google's Ads Preferences believes I'm a guy interested in politics, Asian food, perfume, celebrity gossip, animated movies and crime but who doesn't care about "books & literature" or "people & society." (So not true.) Yahoo! has me down as a 36-to-45-year-old male who uses a Mac computer and likes hockey, rap, rock, parenting, recipes, clothes and beauty products; it also thinks I live in New York, even though I moved to Los Angeles more than six years ago. Alliance Data, an enormous data-marketing firm in Texas, knows that I'm a 39-year-old college-educated Jewish male who takes in at least $125,000 a year, makes most of his purchases online and spends an average of only $25 per item. Specifically, it knows that on Jan. 24, 2004, I spent $46 on "low-ticket gifts and merchandise" and that on Oct. 10, 2010, I spent $180 on intimate apparel. It knows about more than 100 purchases in between. Alliance also knows I owe $854,000 on a house built in 1939 that — get this — it thinks has stucco walls. They're mostly wood siding with a little stucco on the bottom! Idiots.

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

資料倉儲的建設和資料採礦建模是DM價值鏈上的兩大技術要點。資料採礦從狹義的角度講,只管從資料到知識這一段。作為一個資料採礦人員的起碼要求,就是充分掌握各種挖掘工具的性能、局限、應用條件等。

一般說來,資料採礦有如下六件武器:描述統計、關聯和相關、分類和聚類、預測、優化、結構方程模型。簡要說明如下:

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

spss中compute生成亂數:

INPUT PROGRAM.

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

2234348365130136856  
提起資料庫行銷可能還有許多人並不瞭解「他」,其實我們雖然不了解什麼是資料庫行銷,但是資料庫行銷卻時時刻刻在影響我們的生活,比如你每天E-mail可能會收到關於某種產品的優惠以及XXX產品的推薦會,接到短信通知「尊敬的XXX先生or小姐,我是XXX公司的客服經理,我們為慶祝........,特邀請您來參加,並有禮品相送」;

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

現在的資料採礦專案多數都是遊擊戰,這邊挖一挖那邊挖一挖,挖到最後還是一場空,還落了個「忽悠」綽號;回想資料採礦的一個標準流程,那只是一個資料採礦類專案的標杆而已,那對商業問題有沒有標杆可言呢?

商業問題的產生多數是源于需求,需求源于客戶or消費者,換句話說多數都是在圍繞「如何讓上帝更上帝」展開的,所以我感覺如果資料採礦類的專案如果能和CRM結合的話,效果會更好;

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

「演算法」指的是用於實現某一資料採礦技術-如分類樹、辨識分析等等的特定程式。

「屬性」也被稱為「特性」、「變數」、或者從資料庫的觀點,是一個「域」 。

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

1463106928943340917  
 Step1.

shadow 發表在 痞客邦 PIXNET 留言(0) 人氣()

1 23