 ����� ����� ���� ��� �������� ������ ������� ��������“Data Mining”
|
�.���� ���� �������
|
�.���� ���� �������
|
|
��� ���� �������� ���� ���������
���� ������� ������� (������)
|
������
���� ����� ��� ������� ����� ���� �� ���� ���� ��� �� ����� ����� ��������ʡ ��� ����� ������� ������� ��� ������� ������ ������� �������� (Data (Mining ����� ���� ��� ������ ������� ������� �� ���� ������� �� ������ �������� ������� �� ����� �������� ������� �� �������� ������� �������� �� ��� ������� ��� �� ������� �� �� ������ �������� ����� �������� ��������. ����� �� ������� ��� ������� ���� ��� ���� ������� ���� ����� �� ������� ��������� ������ ����� ������� ������ ������� ���� ������.
�������
��� ������� �� �������� ������� ���� ����� ��� ����� ��������� ������ �� ������ �������� ������� �� ������� �������� ��� ��������� ���� ���� �� ��� ��������. ��� ���� ������ �� �������� ��� ����� ����� ������� ����� ��� ������� ����������� ���� ��� �������� ������� �������� �� �������� ���������� ������ ������ ������ ������� ��� ������ ������� �������� Internet[8].
�� ��� ����� �� ������ ������� ����� ���� �� ���� ������� ������ ���� ������ ������� ������ Data Mining ������� ������ Association Rule �Clustering Techniques ����� ���� ����� ����� �� ���� ���� ��� �� ����� ����� ��������� Software Engineering .
�������
���������� ���� ��� ����� �� ���� �� ������� ����� ������ �� ��� ��������� ���� ������ �������� �� ������� ��������� ����� ���� ��������� ������ ������ ���� �������. ��� ������� ������ ���� ������ ������ ����� ��� ������� ����� ��� ����� �������� ����� ����� ����� ���� ������ ���� �� �������� ���� ������� ������� ������� ���� ����� ������� ������ ������� �� ��� ���� ���� ����� ����� ���� ����� ������� ������ ������� ����� �� ��������[16]. ���� ����� �������� ������� �� ������� ���� ������ ������� ��������� ���� ���� �� ��� �������� ���� ���� ������� �� ������ ������ �� ��������� �� ��� ������ �� ��������� �������� ������� �� ������ ����� ���� ������� �� ������� [ 5� 8 ].
��� ������� ����� ��� ���� ����� ������ ������ ������� ������ �� ���� ����� �������� ���� ���� ������ ������ ��� ��� ������ �� ��������� ������ ��� ����� �� ��� ������� �� ����� ��������� ���� ���� �� ����� �������� [12]. ������ ������ �� ����� ������� ���� ���� ������ ������� �� ������ �������� �������� ����� ����� ������� ���� ���� ��� ������ ��� ��������� ��� �� ���� ���� ����� ������� ������� Stop Word List. ��� ��� ������� ������ �� ���� ������� ����� ������� ���� ��� ������� ��������� �������� ������� ������� ����� ���� ����� ����� �������� ��� ������� ������ ��������� ������ �� ���� ������� [18 ].
���� (1) ���� ����� �������
|
�������
|
������� ��������
|
������� �����
|
|
|
������� ��������
|
������� ������
|
|
��������
|
������ �� ��������� ������ ���� ������ ���������
|
������ ������� ��������� ������� ��� �������
|
������ ������� ��������� �������� ������� ������ �������� ������ �������
|
|
�������
|
������ �� �������� ��������
|
��� ������ ������� ��������� ������� ��� ������� �� ���� �������
|
������� �������� �������� �� ����
|
|
��� �������
|
����� ���������� ��������� ��������
|
������� ������ ������� ��������� �� ���������
|
���� �������� �������� ������ ��������� ���������
|
������� �������� Data Mining (DM)
���� ����� ������� �������� Data Mining ����� ����� ��������� ������� �� ����� ������ ���� ��� ����� ����� ���� �������� ����� ������� ������� �� ������� ��� ��������� ������ �� Data Warehouses ������ ��� [6].
��� ���� ������� ����� ������� �� ������ ���� �� ������ �������� ���� �� ������ �������� ����� �� ������� ��� ������� �������� ���� ���� ����� ��� ��� ������� ����� ��������� ��������� [10].
����� ����� �� ������� �������� Data Mining �� ����� ������� ����� �������� �������� �������� ������ ����� ������ ���� ������� ����� �� ��� ������ ����� [9]. �� �� ����� ������� ������ ����� ����� �� �������� �������� ������ ���� �� ��� ���� ������� ��� ������ ����� ������ ��� ����[11].
�������� �������� Data Mining �� ������� ������� �� ����� ������ ������� �� ����� �������� ���� ���� ��� ������� �������� ������� ��� ���������� ����� �� ��� ������ ����ǡ ������ ������ ������� �� ����� �������� ����� ����� �� ������� ���� �� ��� �������� ����� ��� ����� ������ ��� ������� ������ɡ[13�14] ����� ���� ��� ���� ������� :
· ����� �������� Data Cleaning : ��� ����� ��� �������� ���� ����� ��� ����� �� ����� Noise �� ������ ��������.
· ����� ��������Data Integration ��� ������� ����� �� ���� ����� ������ �������� ������ ������� ����� ���� ������ �� ���� ����.
· ������ �������� Data Selection : �� ��� ������ɡ �������� �������� ������� �� ���� ���� ������� �� ������ ��������.
· ��� �������� Data Transformation : ��� ����� ��� �������� ���� �� �������� ��� ��� ����� �������� ����� .
· ������� �������� Data Mining : �� ��� ������� ���� ����� ����� ��� �������� ����� ����� ��� �������.
· ����� ������� Pattern Evaluation : ������� ���� ������� ���� ������� ���� ������� ��� �������� �������.
· ����� ������� Knowledge Representation : ��� ������� ������� �� ����� ������ ������� �� ����� �������� ��� ������� ���� ����� �������ϡ ��� ������� �������� ������ ������� ������ ������� �������� �� ��� ������ ����� ������� ��������. ������ (1) ���� ������� �������� ������
�� ����� ������ ������� �� ����� �������� :
��� (1) ���� ������� �������� ������ �� ����� ������ ������� �� ����� ��������
����� �� ���� ������� �� �� ���ϡ ���� ���� ������ ���� ����� �� �� ����� ����� �������� ������ ����� �������� �� ������ ����� ����� �� ����� ����� ������ �������� �� ����� ��� ��������.[1� 3]
����� �������� Association Rule
����� �������� �� ��� �������� ������� �� ������� �������� Data Mining ����� �� ����� ������ ������� ������ ������ ��� ���� ����� ����� �� �������ʡ ��� ���� ������� �� �������� ������� ���� ���� ��� ������ �������� ������� ��� ���� ������ ������ [3� 4].
������ ����� ������ ���� large Item set �� ���� �������� ������� :
Xè Y ����� ����� ���� �������� ���� ��������
�������(clustering ):-
��� ����� ����� �������� ��� ������ �� ������� ������� ��� �������� ������� ��������� ��� ������� �� ����� ��� ���� ��������.[9�7]
Supervised Classification = Classification
��� ���� ������� ������.
Unsupervised Classification = Clustering
��� �� ���� ������� � �������.
���(2) ���� ����� �������
������ �������
��� ����� ����� ������ ����� ������ �� �������� ������ ������� �� ��� ����ʡ ��� ������� ����� �� ��� ������ ������ ����� �� ������� ������ ��������� ��� ���� ��� �������� �� ���� ������ �����.
������ ����� ������
�� ����� ������� ������ �� ����� ������ :
1- ��� ������
������ ������� ����� �� ������� ������ ����� �������� ����� ���������� �� ������ ���� ����� �������� �������� �� ���� ����� ��������� ������ ���������� ������� ����� �������� ����� �� ������ �������� ( ��� ������� )� ��� ���� ��������� �� ������ �������� �� ������� ������� ������ ��������� ���������� �� ��� ������.
2- ��� ������
��� ������ ������� �� ������� ����� ����� �� ����� ��� (100 – 500) ����� ���� ��� ����� �� ����� ������� ������� ������� ���ɡ ����� ���� ������ ���� ������.[17]
3- ��������� ������� ������
����� ������ ������� �� ����� ������� ������� ������� �������� ������ ������ ������ ����� ��������� �� ��� �������� ���������.
����� ������
�� ����� ������ ������� �������� ������ ������� �������� ������� ����� �������� ������ ������� ��������� ������� Large Item Sets ��������� ������� ���� ������� �������� ������ ��������� ���� ���. �� ������� �� ���� ����� ������ ��������� ������ �������� �������� ��� ������� ��� ����� ��������� �����ɡ ����� ���� ���������� ������ ����� :
Input: - abstracts theses of software engineering (Text files (*.txt))
Output: - tables that contain clustered items
Step 1:- Begin
Step 2:- Build a Data Base that contains the flowing tables:
1. table- abstract
2. table- abbreviations
3. table- belongs terms
Step 3:- using Lexical analysis to eliminate stop word list
Step 4:- set minimum support= 2;
Step 5:- for each word find the frequency of it
Step 6:- build a table that contain the words that grater or equal than two.
Step 7:- call combinations algorithm to generate Token/Word table
Step 8:- call Association -Rule algorithm to find lager item set
Step 9:- using these item sets to cluster items into ( BT,NT) terms
Step 10:- Display thesaurus
Step 11:- end.
The combination algorithm
Input: - table of word
Output: - table of Phrase / word
Step 1 :- Begin
Step 2 :- i=0;
Step 3 :- count= the no. of record of table word
Step 4:- while i<= count do
Begin
Phrase =word i+ word i+1;
Search Phrase into table- word
If found then
Begin
Find its frequency
Add it into table Phrase / word
Combination (Phrase, I)
End
Else
If i=count then add word into table token
I=i+1;
Step 5:- End;
Step6:- End.
����� ������
����: �� ������� �� ���� ����� ������ ����� ������� ������ :
1- ���� ����������
����� ��� ������ �������� ������ �������� �������� ���� ���� ���� ������
��� (3) ���� ���� ���������� �� ����� ��������
2- ���� ���������
����� ��� ������ �� ����� �� ����� ����� ��������� ���������
ID, abbreviation, Term) (
��� (4) ���� ���� ���������
3- ���� ��������� ��������
����� ��� ������ ��� �� ����� ����� ��� �� ��������� ���� ���� ������ ����� �� ( ��������� ������� ) :
��� (5) ���� ���� ��������� ��������
4- ���� ������� ������
����� ��� ������ ��� �� ������ ���� ���� �� ������� ������͡ ��� ��� ������� �� ��� ���������.. ���
��� (6) ���� ������� ������
����� : ��� �������� �� ���� ����� ����� �������� ���� ��� �������� ������ :
1- ������� ������� Lexical analysis
�� ��� ������� ��� ����� �� ����� ���� ��� ������� ����� �� ���� �� ���� �� ����� �� ���� ����� ����� ������� ���������� �������� ����������. ��� ���� ������ ��� ����� ����� �� ������� ���� ��� ��� ���� ����� ���� ������� ���� ���ա ��� ���� ������ “a”,”the”,”of” .. VB �������� ��� ������� �� ����������. ������� ����� ���� ���� ���������� ��� ������� ��� ������� ��� ��� ��� ���� ����� ������ ���� ��� ������� ����ɡ ��� �� ��������� �� ��� ��� ��� ������ ������� ������� ��������� ������ ��� ����
��� (7) ���� ���� ���������� ��� ������� ������� ��� ��������
2- ���� �������
�� ��� ������� �� ���� ������� ��� ����� ���� ����� �� ���� ���������� ��� ������� ������� ��� �������� Stop Word List ����� ���� ������� ��������� ��������:
��� (8) ���� ��������� ����������
3- ���� ���� �������� – ������� Generate the Phrase / Word table
�� ������� combination algorithm �� ����� ��� ������ ���� ����� ��������� ��� ��� ������ �� ����� ������ �� ��������� :
��� (9) ���� ���� �������� - ���������
4- ����� Generate the Transaction (TID)
�� ����� Generate the Transaction (TID)�������� ���� ������ ��� Transaction ����� ������ ������� ������ ���� Transaction :
��� (10) ���� ���� ������ TID
5- ����� ������� ��������� ������� Find Large item – sets
�� ��� ������� �� ������� ����� �������� Association Rule �� ������ ��� ������� ��������� ������� ��������� �������� ������ :
���� ����� ��� ������ ����� :
��� (11) ���� ���� ��������� ���������� ������� Association Rule
6- ����� ��������� Items Clustering
����� ������� ������� �� ����� �������� ������� ��������� ������� ������ ������ ������ ��������� �� ������� ����� Broad term (BT) �������� ���� Narrow term (NT) �������� ������� Related term (RT) �� ���� ����� ������ (Miner Value) ����� 22%=2� ���� ���� ������ :
Software Engineering = ABCD ��� ���� �� ��� ������� ���� ���� �������� ���� �� 2� ����� ������ʡ ������ ��� �� ��������� ������� �� ��� ����� ����� �� ���� �� ���� ��� ��� ����� ���� (BT) . �������� ������ ���� ����� ������� ���� ���� ��� ������ :
Ex 1:
BT Software Engineering
NT Software Development
RT Life Cycle Development
EX 2:
BT Software Development
NT Analysis
Design
Coding
Testing
Implementation
Ex3:
Object- Oriented-approach
|
�����������
1- �� ���� ������� ��� ������� ������ ���� ������� ����� ��� ����� �������� ��������� ����� ��� ������ ������ ������� ���� ������.
2- ���� ������� ��� ������ ������ ������� ��������� ��� ������ �����.
3- �������� ��� ������� ���� ���� Web Thesaurus �� ���� ����� ������� ����� ��� Web.
4- �� �� ������ �� ����� ���� ������ ������ ����� ��� �� ������� ��� ������� ���� �� ��� ���� ������ �� ������ ���� ��� ��������� ��������� �������.
5- �� ������� �������� ������� ���� ������ �� ������ ������� ������� ��� �� ���� �� ���� ����ɡ �� ������ ���� �������� ���� �������� ������ ������� �������� Data Mining ������ �� ������� �������� ���� ���� ��� ������� ���� ������ ��� ��������� �������.
�������
1. Agrawal R., Imielinski T., and Swami S., Mining Association rules between sets of items in large databases, Proc. of the ACM SIGMOD Conference on Management of Data, Washington, DC, May 1993.
2. Agrawal R.,and Ramakrishnan Srikant, Fast algorithms for mining association rules , in proceeding of 20th lntl, conf. on Vary Large Data Base (VLDB'94),pages 487-499, Santiago de Chile ,sptermber,1994.
3. Alaa H. Al-Hamami, abass F Kader ,Hussein K.Al-khefaji,"Desgin and Implementation of Genenrate of large Dense, or sparce Database to test Association rules Miners" (selected reachers papers), Scientific journal of Fedration of Arab Scintific Research Council, 2002.
4. Alaa H. Al-Hamami, abass F Kader ,Hussein K.Al-khefaji, "a new Approach for mine negative association rule", journal of Al-Rafiaden Uni. Coll,No, 10,10,2002.
5. Chung, Yi-Ming, William M. Pottenger, Bruce R. Schatz. Automatic Subject Indexing Using an associative Neural Network. available at : http://www.canis.uiuc.edu/
6. D. Zhang and F. Currim, Data Mining. Technical report, 1996.
7. DAVID M. ROCKE AND JIAN DAI, “ Sampling and Sub Sampling for Cluster Analysis in Data Mining: With Applications to Sky Survey Data, Center for Image Processing and Integrated Computing, University of California, ,2003.
8. Devadason, F. J. Generation Of Thesaurus In Different Languages A Computer Based System (PDF) available at:http://portal.acm.org
9. Marco BOTTA , “Clustering Techniques ”,Dipartimento di Informatica Universitàdi Torino,www.di.unito.it/~botta/didattica /clustering.html,2003.
10. Michael J. A. Berry and Gordan S. Linoff, Mastering Data Mining. John Wiley & Sons, Inc, 2000.
11. P. Adriaan and D. Zanting. Data Mining. Addison-Wesley: Harlow, England, 1996.
12. Tulic, Martin. Automatic indexing available at:http:// www.anindexer.com
13. Two Crows Corporation. Introduction to Data Mining and knowledge
14. U. Fayyad, G. Piatetsky-Shapiro,P. Smyth, & R. Uthurusamy, Advance in Knowledge Discovery & Data Mining. Cambridge, MA (The AAAI Press/The MIT Press), 1996.
15. Wei Wang,” Clustering”, COMP 290-90, UNIVERSITY of NORTH CAROLINA atCHAPEL HILL, Fall 2003.
16.��������� ����. �������� ������� ���������. ����� : ����� ������� ����� ������ ���������ʡ1995. � 83-88.
17- ��������� ����. ���� ����.�85
18- ������ѡ��.����ϡ��� ��.�����.������� ������� ��������ʡ ����� ���� ���� . �3 (����� ������).- ������ : ����� ����� ��� ������ɡ1997. � 360
|