Akıllı Sicil Düzenleme Aracı
BELEDİYE MIS SİSTEMLERİ İÇİN AKILLI SİCİL DÜZENLEME ARAÇLARININ GELİŞTİRİLMESİ
Cihan KABRAN1 – Osman AKIN 2 – Engin HAZAR 3
Özet¬¬— Bu çalışmada belediyelerde zaman içerisinde farklı kaynaklardan oluşan sicil bilgisini kontrol etmek, düzenlemek, mükerrerliği gidermek konusuna değinilmiştir. Sicil bilgileri üzerinde T.C. Kimlik No(TCKN) algoritma kontrolü, Kimlik Paylaşım Sistemi (KPS) üzerinden TCKN doğrulaması ve sicillere ait yapısal veride, verinin her bir alan içerisinde benzerliğini mesafe algoritmaları ile tespit edip, alanlar üzerindeki bulunacak ağırlıkların oranında mükerrerlik tespiti yapılması amaçlanmıştır. Karar ağaçları sonucunda bileşim alanlar oluşturup bu alanlar üzerinde de ağırlıkların oluşmasıyla mükerrerlik tespitinin net bir şekilde yapılması amaçlanmıştır.
Anahtar Sözcükler— Belediye, Belediyecilik, Sicil, Düzenleme, Akıllı Araçlar, Yapısal Veri, T.C. Kimlik No(TCKN), Kimlik Paylaşım Sistemi(KPS), Mesafe Algoritması, Karar Ağaçları
DEVELOPMENT OF SMART REGISTRY DATA ARRANGEMENT TOOLS FOR MUNICIPALITY MANAGEMENT INFORMATION SYSTEMS (MIS)
Abstract— In this study, it was mentioned that controlling, organizing and preventing the duplication of the registry data which is composed of different sources over time. T.C. Registiration information is firstly checked and validated through algortihm control on T.C. Idendity number, T.C. Identity control on Identity Sharing System (KPS) services and control processes on other structured data on database. It is aimed to determine the similarity of the data within each field by means of distance algorithms and to determine the repeatability of the weights on the fields.
Key Words—Municipality, Registry Data Arrangements, Smart Tools, Structured Data, T.C. Identity Number (TCKN), Identity Sharing System (KPS), Distance Algorithm, Decision Trees
1. GİRİŞ (INTRODUCTION) Teknolojinin gelişmesiyle birlikte kamu kurumlarından biri olan belediyeler birçok faaliyet alanında vatandaşla(gerçek kişi) ve tüzel kişilerle doğrudan yâda dolaylı bire bir işlem yapabilir duruma gelmiştir. Bu durum belediyelerin çeşitli ortamlar üzerinden işlem yapılan kişilere ait verileri oluşturmasına neden olmuştur. Farklı ortamlarda işlem yapılan bu verilerin zamanla kirliliği artmıştır. Belediyelerde her bir kişi için kullanılan ve kişilerin nüfus ve iletişim bilgilerinin tutulduğu veri sicil verisi olarak adlandırılmaktadır. Bu makalede gerçek kişilere ait sicil verileri ele alınmıştır. Hızla artan kent nüfusu kentlerde yaşamı ve kent yönetimini zorlaştırırken, kentlerin akıllı kentlere dönüşümü ve yönetim bilgi sistemlerinde(MIS) karar veren yapılar giderek daha fazla önem kazanmaktadır. MIS’ lerde karar veren yapıların olabilmesi için de öncelikli olarak sağlıklı veriye sahip olmak gerekmektedir. MIS sistemlerinde sicil verisi kirli ve sağlıksız bir yapıdadır. Her bir belediyede yaklaşık 25-30 müdürlük yer almaktadır ve her bir müdürlüğün kullandığı MIS uygulaması farklı olabilmektedir. Bu veriler günümüz teknolojileri ile üretilen yeni uygulamalarda tek bir veri çatısı altında toplandığında, sicilin her bir müdürlükte işlem yaptığı varsayıldığın, bu çatı veri tabanında bir sicile ait 25 tane mükerrer sicil bulunma olasılığı vardır. Bununla birlikte gerek kullanıcı hatası ile oluşan yazım hataları, kullanılan uygulamaların üzerinde bulunan yapının bir diğerine uymaması, her bir işlemde yeni bir sicil verisi ile işlem yapma neticesinde veriler sağlıksız yapıdadır. Yapılan hataların haricinde soyadı ve kimlik bilgileri değişimleri de siciller üzerindeki kirliliği arttırmaktadır. Akıllı Sicil Düzenleme Aracı(ASDA) olarak geliştirilen uygulamada siciller üzerindeki kirliği azaltmayı, verinin sağlıklaştırılmasını amaçlamaktadır. Bu noktadan hareketle sicillerde TCKN kontrolü, TCKN boş olanlarda KPS ile TCKN bulunması sonrasında sicil yapısı üzerindeki nüfus ve iletişim bilgileri alanları üzerinden mükerrerlik tespit edilmiştir. Sicil yapısı üzerindeki karakter alanların karşılaştırılmasında mesafe algoritmaları kullanılmıştır. “Levenshtein Mesafe Algoritması”, “Jaro Mesafe Algoritması” ve “Winkler Mesafe Algoritması” metotlarının hem hız hem de Türkçe karakterlerin kontrolünde sağladığı sonuçlar karşılaştırılmıştır. Bu uygulamada daha sağlıklı sonuç veren “Levenshtein Mesafe Algoritması” kullanılmıştır. Sicil verisi üzerinde bulunan ve mükerrerlik karşılaştırmasında kullanılacak alanlar benzerlik oranını belirlerken bir ağırlığa sahip olacaktır. Belirlenecek olan bu ağırlıklar veri tabanında ilgili ağırlığın kullanılmasına bağlı olmakla birlikte önceki mükerrerlik tespitlerinde sağladığı faydanın bulunacak ağırlığa etki etmesiyle birlikte gelişebilir bir yapı olmasını sağlayacaktır.
2. SİCİL KONTROL ETME/ DÜZENLEME (REGISTER CHECKING / ARRANGEMENT)
Tablo 1’de örneği verilen veri kümesinde belediye veri tabanında sicil tablosundaki bazı alanları göstermektedir. Tabloda da görüldüğü üzere aynı sicile ait birden fazla sicil mevcut olup alanlara ait değerleri farklılık göstermektedir. Amaçlanan bu örnek veri kümesindeki veriyi tek kayda düşürmektir. Geleneksel yöntemlerle TCKN, Adı, Soyadı üzerinden mükerrerlik tespiti yapılmaya çalışıldığında örnek veri kümesindeki hiçbir veri mükerrer olarak gözükmemektedir. Bu nedenden dolayı farklı arayışlara giderek ASDA uygulaması yapılmıştır.
2.1. Hiçbir Yerde Kullanılmayan Sicillerin Geçerliliğinin Kaldırılması (Removal of Validity of No-Used Registers)
Belediye sicil verilerinden MIS üzerindeki hiçbir modülde kullanılmayanların geçerliliği kaldırılabilir. Bu operasyonel iş toplu olarak yapılarak sonraki aşamalarda siciller üzerinde yapılacak işlerde gereksiz işleri azaltmayı sağlayarak zaman sağlar. Bununla birlikte karar destek raporlamalarında sicil sayıları hiç işlem yapılmamış sicilleri dikkate almayarak raporların doğruluğu artar.
2.2. TCKN Algoritması Hatalı Sicillerin TCKN Değerini Silmek (Deleting TCKN Value of Incorrect Registers by calculating TCKN Algorithm)
TCKN’ ler Nüfus Vatandaşlık İşleri(NVİ)’nin belirlediği bir algoritmaya göre oluşmaktadır.
Buna algoritmanın en önemli özellikleri aşağıdaki gibi listelenebilir;
I. TC Kimlik numaraları 11 basamaktan oluşmaktadır.
II. İlk 9 basamak arasında kurulan bir algoritma bize 10. basmağı, ilk 10 basamak arasında kurulan algoritma ise bize 11. Basamağı verir.
III. Her hanesi rakamsal değer içerir.
IV. İlk hane 0 olamaz.
Tüm TCKN değerleri ilgili algoritmaya göre kontrol edilerek uymayanların TCKN bilgisi yanlış bilgi içerdiğinden silinmesinde sorun oluşmayacak, aksine verilerin temizlenmesine neden olacaktır. Toplu yapılacak bu operasyonel iş sonrasında sistemdeki TCKN’ ler sonraki aşamalarda yapılacak mükerrerlik tespitlerinde kullanılabilecektir.
2.3. KPS ile TCKN Boş Olan Sicillerin TCKN Değerini Bulma (Finding TCKN Value of Empty Records by validating with Identity Sharing System (KPS) services)
NVİ kamu kurumlarına, KPS ile TCKN bilgisinden nüfus bilgilerini sorgulamasının yanında bu sorgulamanın tersi olan nüfus bilgileri ile TCKN değerini sorgulama imkânı sağlamaktadır. Bu sorgulama kullanılarak sicillerde TCKN değeri boş olan sicillerin TCKN değeri sorgulanabilmektedir.
NVİ TCKN sorgulamasında sicil ile ilgili bilgilerden bazılarını zorunlu bazılarını da opsiyonel parametre olarak istemekte sorgulamayı girilen parametreye göre yapmaktadır.
Eğer Türkiye Cumhuriyeti’nde ilgili parametrelere karşılık gelen birden fazla kişi var ise servis geri dönüş yapmamaktadır. Bu kontrol, servisten gelen TCKN değerinin parametrede bilgileri verilen sicile ait olduğunu kesin olarak bildirmektedir. Bu noktada opsiyonel olan parametreler önem kazanmakta ve ne kadar çok parametre bilgisi serviste kullanılırsa sonucu elde etme ihtimali o derece artacaktır.
Tablo 3. KPS ile TCKN Algoritması Bulunması Sonrası (After Detection with KPS and the TCKN Algorithm)
2.4. Mükerrerlik Tespiti Öncesi Kontrol Edilecek Alanları Ağırlıklandırma (Weighing areas to be checked before duplication)
Sicil verisine ait mükerrerlik tespitinde kullanılacak alanlar şunlardır;
TCKN, Adı, Soyadı, Baba Adı, Cinsiyet, Doğum Tarihi, Doğum Yeri, Anne Adı, Nüfus Kayıt Yeri, Nüfus Kayıt Mahalle, Cilt No, Aile Sıra No, Sıra No, Cep Telefonu, Ev Telefonu, İş Telefonu, E-posta
Bu alanların seçimindeki neden sicil için ayırt edici özelliği olmalarıdır.
Şekil 1’de bir belediyeye ait alanların doluluk oranları yer almaktadır. Genel olarak tüm belediyelerde bu alanların doluluğu yakın değerler almaktadır. ASDA’ da bu değerler alanların ağırlığında kullanılacaktır.
Şekil 1: Sicil verisinde alanların doluluk oranları(%) (Occupancy rates of areas in the registry) (%)
Doluluk oranlarının birebir ağırlık olarak kullanılması mümkün olmasına rağmen doğruluk yüzdesini arttırmak için ağırlık tespitinde birkaç nokta daha eklenmiştir.
• İki sicilden birinde bir alan dolu iken diğer alan boş ise bu durum her iki sicilde de bu alanın değişik olmasından farklı bir ağırlık gerektirecektir. Boş kayıtlar ilgili alanın ağırlığına bağlı olarak farklı bir oran değeri almalıdır.
• Doğum Tarihi alanında eski kayıtların çoğunda doğum yılının ilk günü olarak girildiği gözlemlenmiştir. Tablo 3’te örnek verilen gerçekte 02.07.1945 olan doğum tarihi 4’üncü sıradaki örnek kayıtta 01.01.1945 olarak girilmiştir. Doğum tarihinin yılı karşılaştırılan sicillerde aynı olması durumu ilgili alanın ağırlığı oranında farklı bir değer almalıdır
• Kadınlarda evlilik sonrası soyadı değişikliği çok fazla gözlemlenen bir durum olduğu için “soyadı” alanının kadınlarda ağırlığı daha az olmalıdır. Karşılaştırılan iki sicilin cinsiyeti kadın ise soyadlarının benzememesi soyadı alanının ağırlığından dolayı benzerliği düşürecektir. Buna önlem olarak soyadı alanının ağırlığı kadınlarda düşürülerek soyadının önemi azaltılmaktadır.
Yukarıda belirtilen 3 madde uzman görüşleri alındıktan sonra ortaya çıkan ağırlık belirleme yöntemleridir. Uzman görüşlerine dayalı bu yöntemler arttırılabilir, alanlara yeni kurallar belirleyerek ağırlıkların şekil alması sağlanabilir. Uzman görüşleriyle oluşan ağırlık belirleme yöntemlerinin haricinde birden fazla alanın birlikte ele alınarak ortaya çıkan yeni bileşim alanlarına ağırlık vererek benzerlik bulma sağlanabilir. Tablo 4’te örnek olarak verilebilecek bileşim alanlar ilgili alanı oluşturan alanlardan çok farklı bir ağırlığa sahip olabilir.
Tablo 4. Örnek Bileşim Alanlar (Example Composition Areas)
Burada bileşim alanı oluşturan alanlar ikiden çok olabilir. Hangi alanların bileşim oluşturacağı karar ağaçları sonucunda belirlenecektir. Buna göre alanlar kendi içlerinde dolu mu boş mu olarak karar ağacı öğrenmesine girecek (cinsiyet alanı Erkek – Kadın – Boş olarak girecektir) sonucunda ağırlığı yüksek olan bileşim alanlar ortaya çıkacaktır.
Şekil 2: TCKN Doluluk – Boşluk İncelemesi İçin Örnek Karar Ağacı (Sample Decision Tree for TCKN Occupancy - Gap Review)
Şekil 2’de görüldüğü üzere uzman görüşlerinde ortaya çıkmayacak fakat karar ağaçları ile tespit edilen durumlar da ağırlık belirlemede kullanılmaktadır. Örnek karar ağacı gerçek belediye verisi üzerindeki 50000 sicille oluşturulmuştur. TCKN alanı siciller için önemli bir veri olduğu için karar ağacının sonucu TCKN alanının doluluk ve boşluk durumuna cevap vermektedir.
İlgili karar ağacından çıkan birkaç örnek sonuç;
• Anne Adı Boş, E-posta Dolu, Cinsiyet Boş, Soyadı Boş ve Yaş 50’den büyük ise TCKN boştur.
• Anne Adı Dolu, Cinsiyet Boş Cep Telefonu boş ve E-posta dolu ise TCKN doludur.
• Anne Adı Boş, E-posta Dolu, Cinsiyet Boş, Doğum Yeri Dolu ve Yaş 70’den küçükse TCKN boştur.
Yukarıda verilen durumlar alanlara ağırlık belirlemede kullanılmaktadır. Mükerrer sicil kümelerine ait alanlara bu durumlar göz önüne alınarak ağırlık verilmektedir. Bir nevi ilgili veri kümeleri için hangi alanların daha önemli/önemli değil durumu belirlenerek daha sağlıklı bir yapı ortaya çıkartılmaktadır.
2.5. Alanların Mesafe Algoritmaları İle Karşılaştırması (Comparison of Areas with Distance Algorithms)
Alanlara kendi içerisinde yapılan benzerlik kontrollerinde birkaç karakterin uyuşmaması neticesinde iki sicile ait aynı alanı tamamen farklı olarak nitelemek yerine mesafe algoritmaları ile benzerlik mesafesini belirleyerek alanın ağırlığı ve alanın mesafe algoritması ile belirlenmiş benzerlik yüzdesi ile sicilin toplam benzerlik puanına dâhil olabilir. Mesafe algoritmalarında “Levenshtein Mesafe Algoritması”, “Jaro Mesafe Algoritması” ve “Winkler Mesafe Algoritması” testleri yapılmış ve uygulamada “Levenstein Mesafe Algoritması” kullanılmıştır. İki sicile ait “ad” alanının mesafe algoritması ile tespiti Şekil 3’de gösterilmiştir.
Şekil 3: Levenshtein Algoritması Sonucu (Result of Levenshtein algorithm)
Şekil 3’de gözüktüğü üzere iki sicile ait ad alanındaki “TT” yerine yazım yanlışı ile “D” karakteri kullanılarak yanlış veri üretilmiştir. İki sicil arasında çıkan “2” fark verideki karakter sayısıyla orantılandığında örnekte verilen iki ad %80 oranında birbirine benzemektedir.
Tüm alanlar üzerinde yapılan bu mesafe kontrolleri ile alanların ağırlıkları oranında alacağı benzerlik puanlarının sonucunda çıkacak olan netice mükerrer sicillerin % kaç oranında birbirine benzediğini vermektedir.
2.6. Mükerrer Sicillerin Birleştirilmesi ve KPS ile Düzenlenmesi (Consolidation of duplicate registers and arrangement with Identity Sharing System (KPS) services)
Sicil verileri üzerinde temizleme işlemleri ve benzerliklerin tespitinden sonra birleştirme yapılmaktadır. Birleştirme işlemleri belediye MIS’i üzerindeki geçerliliği kaldırılacak sicillerin son durumda geçerli olarak sicile taşınması ile yapılmaktadır. Sonrasında ise geçerli olarak kalacak sicilin TCKN bilgisi ile KPS’den sicilin güncel bilgileri sorgulanarak sicil güncellenmektedir. Tablo 5’da son durum mevcuttur.
Tablo 5: Birleştirme ve KPS Güncellemesi Sonrası (Post Merge and KPS Update)
3. SONUÇLAR (RESULTS) Bu çalışmada belediyelerde karar destek raporlamalarını daha sağlıklı alabilmek için sicil verilerindeki kirliliğin azaltılması amaçlanmış ve bu amaç doğrultusunda operasyonel işlerin yanı sıra veri madenciliği disiplinlerinden biri olan karar ağaçları kullanılarak alanların ağırlıklandırılması sonrası mükerrerlik tespiti yapılmıştır. Mükerrerliklerin silinmesi sonrasında belediyelerle gerçekten ilişkisi olan siciller veri tabanında geçerli olarak kalmıştır. Sicillerin düzenlenmesi, belediyelerde yapılan işlemleri hızlandırmakla birlikte kullanıcı hatalarını azaltarak veri ve zaman kaybını önlemektedir. Sicilde yapılan bu işlemlerin; adres, beyan ve diğer veri kümeleri için de analiz işlemleri ve düzenleme uygulamalarının sektörde kullanım ve kullanım alanlarının artması beklenmektedir.
Örnek veri olarak alınan 2 belediyeye ait gerçek veriler üzerinde yapılan sicil düzenleme verileri aşağıda yer almaktadır.
Örnek Veri 1. (Example data 1.)
Toplam Gerçek Sicil Sayısı : 383539
TCKN Algoritması Hatalı Sicil Sayısı : 1294
KPS'den TCKN Sorgulanabilecek Sicil Sayısı : 8044
Sicil Mükerrerlik Sayısı : 29472
Mükerrer Sicil Sayısı : 61180
Örnek Veri 1'e göre ASDA işlemleri yapıldığında çıkan sonuç,
Toplam Gerçek Sicil Sayısı : 357064
TCKN Algoritması Hatalı Sicil Sayısı : 0
KPS'den TCKN Sorgulanabilecek Sicil Sayısı : 1250
Sicil Mükerrerlik Sayısı : 5912
Mükerrer Sicil Sayısı : 17452
Örnek 1 verisi üzerinde yapılan analize göre mükerreliklerin %80'i analiz sonucu yüksek değer alarak otomatik olarak birleştirilmiştir. Algoritma hatalı sicillerin tamamında TCKN değeri boşaltılmış ve sonrasında KPS'den TCKN sorgulaması ile büyük bir çoğunluğunda TCKN değeri elde edilmiştir.
Örnek Veri 2. ((Example data 2.)
Toplam Gerçek Sicil Sayısı : 534498
TCKN Algoritması Hatalı Sicil Sayısı : 2061
KPS'den TCKN Sorgulanabilecek Sicil Sayısı : 3252
Sicil Mükerrerlik Sayısı : 1626
Mükerrer Sicil Sayısı : 3262
Örnek Veri 1'e göre ASDA işlemleri yapıldığında çıkan sonuç,
Toplam Gerçek Sicil Sayısı : 530233
TCKN Algoritması Hatalı Sicil Sayısı : 0
KPS'den TCKN Sorgulanabilecek Sicil Sayısı : 1923
Sicil Mükerrerlik Sayısı : 573
Mükerrer Sicil Sayısı : 1156
Örnek 2 verisi üzerinde yapılan analize göre mükerreliklerin %65'i analiz sonucu yüksek değer alarak otomatik olarak birleştirilmiştir. Burada oranın düşük olması tamamen sicil verisinin çok kirli olmasındandır. Çoğu sicilde ad – soyad gibi alanlar dahi mevcut değildir. Algoritma hatalı sicillerin tamamında TCKN değeri boşaltılmış ve sonrasında KPS'den TCKN sorgulaması yapılmıştır. KPS'den TCKN değeri sorgulamasında TCKN değeri elde edilme oranı %41'dir. Birleştirme işleminde oranın düşük olmasının nedeni bu noktada da geçerlidir.
Örnek 1 verisi ve Örnek 2 verisi ele alındığında verinin temizliği yapılan işlemin verimliliğini arttırmaktadır. Örnek 1 verisinde yüksek oranlarda sonuca ulaşılmışken Örnek 2 verisinde veri eksikliği nedeniyle KPS sorgulamaları ve benzerlik analizleri sonucunda oran diğerine göre düşük çıkmıştır.
Örnek 2 verisi ASDA haricinde manuel yöntemlerle temizlenmeye çalışılsaydı bu oranlar 0'a yakın çıkacaktı. Burada düşük olarak nitelendirilen oran bile ASDA' nın öne sürdüğü disiplin göz önüne alındığında başarılı olmaktadır.
KAYNAKLAR (REFERENCES)
[1] E. Rahm; H. H. Do, "Data Cleaning: Problems and Current Approaches", 2-6, 2000.
[2] M. A. Hernandez; S. J. Stolfo: "Real-World Data is Dirty: Data Cleansing and the Merge/Purge Problem. Data Mining and Knowledge Discovery" :10-36, 1998
[3] R. Ananthakrishna; S. Chaudhuri; V. Ganti; "Eliminating Fuzzy Duplicates in Data Warehouses", 1-4, 2002
[4] H. H. Shahri; A. A. Barforush; "A flexible fuzzy expert system for fuzzy duplicate elimination in data cleaning"; 2004
[5] D. R. Bobbarjung; S. Jagannathan; "Improving Duplicate Elimination in Storage Systems"; 2005
MAKALE'YE AİT POSTER'İ İNCELEMEK İÇİN TIKLAYINIZ...