AccessTr.neT

Tam Versiyon: PDF veri toplama ve veritabanına kaydetme..
Şu anda arşiv modunu görüntülemektesiniz. Tam versiyonu görüntülemek için buraya tıklayınız.
Merhaba arkadaşlar, elimde 30.000 adet pdf var. Bu pdf sayfalar müşteri bilgilerini barındırıyor. Her bir pdf de müşteriye ait bilgiler var. Bu pdf lerde bulunan bilgileri veritabanina aktarmak istiyorum. 30.000 kişinin adı, soyadı, telefon numarası, adresi, araç bilgileri, çalıştığı iş yeri vb. bilgiler kayıtlı.

Her sayfadaki bilgileri ilgili sutunlara aktarmak istiyorum. Böylece tüm müşterilere ait elimde veri bankası olacak ve arama yöntemi ile araç sahibi olanları ayrı, meslek gruplarına göre ayrı ayrı, cinsiyet ve yaş durumlarına göre ayrı ayrı kategorilemek için veritabanı yapmak istiyorum. 

Danışmak istediğim husus: pdf den verileri ayrı ayrı arayarak veritabanına çekmem mümkün mü? 

Her PDF form şeklinde yani her bilginin yeri PDF icinde aynı yerde..
iTextSharp kullanarak PDF belgelerinizin içeriğini okuyabilirsiniz. İşin klasördeki PDF leri dolaşması, okunanları farklı bir yere taşıması, hatalı olanların loglanması gibi pek çok yan işlerini unutmamak lazım
(01/10/2017, 23:01)Uğur ŞİRİN yazdı: [ -> ]Merhaba arkadaşlar, elimde 30.000 adet pdf var. Bu pdf sayfalar müşteri bilgilerini barındırıyor. Her bir pdf de müşteriye ait bilgiler var. Bu pdf lerde bulunan bilgileri veritabanina aktarmak istiyorum. 30.000 kişinin adı, soyadı, telefon numarası, adresi, araç bilgileri, çalıştığı iş yeri vb. bilgiler kayıtlı.

Her sayfadaki bilgileri ilgili sutunlara aktarmak istiyorum. Böylece tüm müşterilere ait elimde veri bankası olacak ve arama yöntemi ile araç sahibi olanları ayrı, meslek gruplarına göre ayrı ayrı, cinsiyet ve yaş durumlarına göre ayrı ayrı kategorilemek için veritabanı yapmak istiyorum. 

Danışmak istediğim husus: pdf den verileri ayrı ayrı arayarak veritabanına çekmem mümkün mü? 

Her PDF form şeklinde yani her bilginin yeri PDF icinde aynı yerde..

Ben kdv, geçici tahakkuklarını önce datagridde yolu ile listeletiyorum aynı anda ödemesi çıkanlarıda açtırıp şu şekilde okutuyorum.
Örnek kod :
 Public Function ParsePdfText(ByVal sourcePDF As String, Optional ByVal fromPageNum As Integer = 0, Optional ByVal toPageNum As Integer = 0) As String
       Dim sb As New System.Text.StringBuilder()
       Dim reader As New PdfReader(sourcePDF)
       Dim pageBytes() As Byte = Nothing
       Dim raFile As iTextSharp.text.pdf.RandomAccessFileOrArray = Nothing
       raFile = New iTextSharp.text.pdf.RandomAccessFileOrArray(sourcePDF)
       Dim token As PRTokeniser = New iTextSharp.text.pdf.PRTokeniser(raFile)
       Dim tknType As Integer = -1
       Dim tknValue As String = String.Empty
       If fromPageNum = 0 Then

           fromPageNum = 1
       End If
       If toPageNum = 0 Then
           toPageNum = reader.NumberOfPages
       End If
       If fromPageNum > toPageNum Then
           Throw New ApplicationException("Parameter error: The value of fromPageNum can not be larger than the value of toPageNum")
       End If
       For i As Integer = fromPageNum To toPageNum Step 1
           pageBytes = reader.GetPageContent(i)
           If Not IsNothing(pageBytes) Then
               ' token = New iTextSharp.text.pdf.PRTokeniser(pageBytes)
               While token.NextToken()
                   tknType = token.TokenType()
                   tknValue = token.StringValue
                   Select Case tknType
                       Case iTextSharp.text.pdf.PRTokeniser.TokType.NUMBER      '1
                           Dim dValue As Double
                           If Double.TryParse(tknValue, dValue) Then
                               If dValue < -8000 Then
                                   sb.Append(ControlChars.Tab)
                               End If
                           End If
                       Case iTextSharp.text.pdf.PRTokeniser.TokType.STRING      '2
                           sb.Append(token.StringValue)
                       Case iTextSharp.text.pdf.PRTokeniser.TokType.NAME        '3
                 'Ignore
                       Case iTextSharp.text.pdf.PRTokeniser.TokType.COMMENT     '4
                 'Ignore
                       Case iTextSharp.text.pdf.PRTokeniser.TokType.START_ARRAY '5
                 'Ignore
                       Case iTextSharp.text.pdf.PRTokeniser.TokType.END_ARRAY   '6
                           sb.Append(" ")
                       Case iTextSharp.text.pdf.PRTokeniser.TokType.START_DIC   '7
                 'Ignore
                       Case iTextSharp.text.pdf.PRTokeniser.TokType.END_DIC     '8
                 'Ignore
                       Case iTextSharp.text.pdf.PRTokeniser.TokType.REF         '9
                 'Ignore
                       Case iTextSharp.text.pdf.PRTokeniser.TokType.OTHER       '10
                           Select Case tknValue
                               Case "TJ"
                                   sb.Append(" ")
                               Case "ET", "TD", "Td", "Tm", "T*"
                                   sb.Append(Environment.NewLine)
                           End Select
                   End Select
               End While
           End If
       Next i
       Return sb.ToString()


   End Function

   Public Function PDFToText(file As String) As String

       Using reader As New PdfReader(file)
           Dim text As New StringBuilder()
           For i As Integer = 1 To reader.NumberOfPages
               text.Append(PdfTextExtractor.GetTextFromPage(reader, i))
           Next
           Return text.ToString()
       End Using

   End Function

   Public Function TRSiz(ByVal vdata As String) As String
       Dim tmp As String
       tmp = Replace(vdata, "Ý", "İ")
       tmp = Replace(tmp, "ý", "ı")
       tmp = Replace(tmp, "Ð", "Ğ")
       tmp = Replace(tmp, "ğ", "g")
       tmp = Replace(tmp, "Þ", "Ş")
       tmp = Replace(tmp, "þ", "ş")
       TRSiz = tmp
   End Function

Private Sub Button1_Click(sender As Object, e As EventArgs) Handles Button1.Click


       Dim Secim As Boolean
       For Each Ana_Klasor In Directory.GetDirectories(TextBox1.Text)
           Dim Mukellef_Isim As New System.IO.FileInfo(Ana_Klasor)
           If Ana_Klasor.ToString.Length > 0 Then
               Try
                   For Each Donemi In Directory.GetDirectories(Ana_Klasor, "08 2017" & "-" & "08 2017", SearchOption.AllDirectories)
                       Dim Donem_Klasor As New System.IO.FileInfo(Donemi)
                       For Each Evrak In Directory.GetFiles(Donemi)
                           Dim Evraklar As New System.IO.FileInfo(Evrak)

                           If Evrak.Contains("KDV1_tahakkuk") Or Evrak.Contains("KDV2_tahakkuk") Then
                               Dim Dizi() As String
                               Dizi = Evraklar.Name.Split("_")

                               Dim yol As String = Ana_Klasor & "\" & Donem_Klasor.Name & "\" & Evraklar.Name
                               ' Dim oku As String = TRSiz(yol).Substring(yazitoplam + 6, yaziislem - yazitoplam - 6)


                               Dim str99 As String = PDFToText(yol)
                               Dim i As Integer = TRSiz(str99).IndexOf("TOPLAM")
                               Dim c As Integer = TRSiz(str99).IndexOf("İşlem")
                               Dim x As Integer = TRSiz(str99).IndexOf("VADESİ")
                               Dim str98 As String = TRSiz(str99).Substring(x + 6, c - x - 6)
                               Dim w As Integer = TRSiz(str98).IndexOf("/")
                               Dim str97 As String = TRSiz(str98).Substring(w - 2, 10)
                               Dim oku As String = TRSiz(str99).Substring(i + 6, c - i - 6)

                               DataGridView1.Rows.Add(Secim, Mukellef_Isim.Name, Donem_Klasor.Name, Dizi(0) & " " & UCase(Dizi(1)), Ana_Klasor & "\" & Donem_Klasor.Name & "\" & Evraklar.Name, Evraklar.LastAccessTime, oku)

                           End If
                       Next
                   Next
               Catch ex As Exception

               End Try
           End If
       Next
End Sub

Kodlar işine yarıyacaktır.
Şu soruyu sorupta verilen cevaplara yanıt vermiyorlarmı insanı hakikaten merak ediyor. Madem takip etmeyeceksiniz neden soru soruyorsunuz? Konuyu çözülmüş konulara taşıyorum.