Hujjat va ma'lumotni AI bilan avtomatlashtirish

Har kuni minglab odam qo'lda bir xil ishni qiladi: PDF'dan raqam ko'chiradi, hisob-fakturani jadvalga kiritadi, xatlardan ma'lumot teradi. AI buni avtomatlashtiradi — chunki strukturasiz matnni strukturali ma'lumotga aylantirish aynan til modeli kuchli bo'lgan ish. Bu qo'llanma — hujjat oqimini avtomatlashtirishning amaliy konveyeri.
Umumiy konveyer
To'rt bosqich: matnni ajratib ol → AI'ga strukturaga sol → tekshir → saqlab/uzatib qo'y.
Bosqich 1: Matnni ajratib olish
AI'ga berishdan oldin hujjatdan matn kerak:
- Raqamli PDF — to'g'ridan-to'g'ri matn (pdfplumber, pdf.js)
- Skanlangan PDF / rasm — OCR kerak (Tesseract, yoki vision-modelga to'g'ridan-to'g'ri rasm)
- Email / HTML — matnini tozalab oling
- Jadval (Excel/CSV) — allaqachon strukturali, AI faqat tahlil uchun
Zamonaviy yo'l: ko'p model (Gemini, GPT, Claude) rasmni to'g'ridan-to'g'ri o'qiydi — alohida OCR shart emas.
Bosqich 2: Strukturaga aylantirish
Bu yerda AI ishlaydi. Sirli qism — aniq sxema talab qiling. "Ma'lumotni ber" emas, balki to'liq JSON formatini bering:
Quyidagi hisob-fakturadan ma'lumotni JSON sifatida ajrat.
Faqat JSON qaytar, boshqa matn yo'q.
Sxema:
{
"sana": "YYYY-MM-DD",
"raqam": "string",
"sotuvchi": "string",
"summa": number,
"valyuta": "string",
"qatorlar": [{"nomi": "string", "soni": number, "narxi": number}]
}
Hujjat:
<<< matn >>>
Ko'p model structured output / JSON mode'ni qo'llaydi — javob har doim to'g'ri JSON bo'lishini kafolatlaydi. Imkon bo'lsa, shuni yoqing.
Bosqich 3: Tekshirish (eng muhim qism)
Model adashishi mumkin (nega) — moliyaviy/yuridik hujjatda bu qimmatga tushadi. Shuning uchun doim tekshiring:
- Sxema validatsiyasi — JSON to'g'rimi, maydon turlari mosmi (kod bilan, AI bilan emas)
- Mantiqiy tekshirish — summa qatorlar yig'indisiga tengmi, sana real diapazonda
- Ishonch chegarasi — model ishonchsiz bo'lsa yoki tekshiruv o'tmasa → odamga yuborish
Qoida: aniq hisob-kitobni model emas, kod qilsin. Model ajratib beradi, kod tekshiradi.
Bosqich 4: Chiqish va integratsiya
Tozalangan ma'lumot qayerga boradi:
- Baza — Postgres, Google Sheets, Airtable
- Keyingi qadam — to'lov tizimi, hisobot, xabarnoma
- Workflow — n8n yoki rejalashtirilgan agent butun konveyerni boshqaradi
Amaliy misol oqimlari
| Vazifa | Kirish | Chiqish |
|---|---|---|
| Hisob-faktura kiritish | PDF/rasm | Buxgalteriya jadvali |
| Rezyume saralash | PDF/DOCX | Nomzodlar bazasi + ball |
| Mijoz xatlari | Tasnif + javob loyihasi | |
| Shartnoma tahlili | Asosiy bandlar + risklar | |
| Kvitansiya hisobi | Telefon surati | Xarajat kategoriyasi |
Narx va model tanlash
Ko'p hujjat = ko'p so'rov = pulga ta'sir. Strategiya:
- Oddiy, aniq formatli hujjat — arzon/kichik model yetarli (qaysi model)
- Murakkab, erkin matn — kuchli model
- Massa qayta ishlash — batch rejimi, kichik model + token tejash
Anti-paternlar
- Tekshirmasdan ishonish: model summani noto'g'ri o'qidi → buxgalteriyaga xato. Doim validatsiya
- Aniq hisobni modelga topshirish: yig'indini model qo'shmasin — kod qo'shsin
- Sxemasiz so'rash: "ma'lumotni ber" → har safar boshqa format. Aniq JSON sxema bering
- Odamsiz to'liq avtomatlashtirish: ishonchsiz holatlar uchun odam tekshiruvi bo'lsin
- Maxfiy hujjatni yopiq API'ga: shaxsiy/tibbiy/moliyaviy data → lokal modelni o'ylang
Keyingi qadamlar
- n8n + AI — konveyerni kodsiz qurish
- Rejalashtirilgan agentlar — avtomatik, davriy ishga tushirish
- Token tejash — massa qayta ishlashda xarajatni kamaytirish