Ehtiyotkor ko‘p funksiyali tarmoqdan foydalangan holda yangi fazoviy-vaqtinchalik uzluksiz imo-ishora tilini tanib olish(1)

Abstrakt: Video oqimlarini hisobga olgan holda, biz uzluksiz imo-ishora tilini aniqlash (CSLR) bilan bog'liq bo'linmagan belgilarni to'g'ri aniqlashni maqsad qilganmiz. Ushbu sohada tavsiya etilgan chuqur o'rganish usullarining ko'payishiga qaramay, ularning aksariyati asosan RGB xususiyatidan, to'liq kadrli tasvirdan yoki qo'llar va yuzlarning tafsilotlaridan foydalanishga qaratilgan. CSLR o'qitish jarayoni uchun ma'lumotlarning etishmasligi video kiritish ramkalari yordamida bir nechta xususiyatlarni o'rganish imkoniyatini juda cheklaydi. Bundan tashqari, CSLR vazifasi uchun videodagi barcha freymlardan foydalanish suboptimal ishlashga olib kelishi mumkin, chunki har bir kadr turli darajadagi ma'lumotni, shu jumladan shovqinni aniqlashning asosiy xususiyatlarini o'z ichiga oladi. Shu sababli, biz qo'shimcha asosiy xususiyatlarni taqdim etish orqali CSLRni yaxshilash uchun diqqatli ko'p funksiyali tarmoqdan foydalangan holda yangi fazoviy-zamoniy uzluksiz imo-ishora tilini tanib olishni taklif qilamiz. Bundan tashqari, biz bir vaqtning o'zida bir nechta muhim xususiyatlarni ta'kidlash uchun fazoviy va vaqtinchalik modullardagi diqqat qatlamidan foydalanamiz. Ikkala CSLR ma'lumotlar to'plamining eksperimental natijalari shuni ko'rsatadiki, taklif qilingan usul zamonaviy usullar bilan solishtirganda CSL va PHOENIX ma'lumotlar to'plamlarida WER balli uchun mos ravishda 0.76 va 20,56 ga yuqori samaradorlikka erishadi.

Supermen o'tlar cistanche

Kalit so'zlar: uzluksiz imo-ishora tili; fazoviy; vaqtinchalik; ko'p xususiyatli; asosiy nuqtalar; o'z-o'ziga e'tibor

1.Kirish

Imo-ishora tili muloqot qilish uchun tovush o'rniga qo'l imo-ishoralari, tana tili va lab harakatlaridan foydalangan holda qo'lda muloqot qilishni birinchi o'ringa qo'yadi [1,2]. Odatda, imo-ishora tili kar yoki eshitish qobiliyati past odamlar tomonidan qo'llaniladi, lekin u tovushlarni eshitish imkonsiz yoki qiyin bo'lgan holatlarda ham qo'llanilishi mumkin. Shuning uchun, imo-ishora tilini aniqlash (SLR) tizimiga ehtiyoj bor, chunki u eshitish qobiliyati past va zaif odamlarni bog'lashga yordam beradi.

So'nggi yillarda tadqiqotchilar SLR-ga katta e'tibor qaratishdi, chunki u taqdim etadigan boy vizual ma'lumotlar. So'nggi SLR tadqiqotlari odatda izolyatsiyalangan imo-ishora tilini tanib olish (ISLR) yoki doimiy ishora tilini aniqlash (CSLR) ga guruhlangan. Bir nechta ishlar faqat ISLR [3,4] ga qaratilgan, boshqalari esa alifboni tanib olish uchun statik imo-ishoralar kabi osonroq vazifalarni tahlil qiladi [5]. Shu bilan birga, so'nggi usullar odatda CSLR vazifalarini hal qilishda murakkabroqdir [6-8]. ISLR bilan solishtirganda, CSLR yanada qiyin muammodir, chunki u jumlalarni qayta qurishni o'z ichiga oladi.

Cistanche choyi

Cistanche deserticola choy mahsulotlarini ko'rish uchun shu yerni bosing

【Batafsil ma'lumot so'rang】 Email:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692

CSLR tadqiqotlari hali ham katta talabga ega, chunki uni amalga oshirish real dunyodagi kundalik sharoitlar bilan chambarchas bog'liq. Ushbu yondashuv aniq segmentatsiyasiz yoki umuman bo'lmagan video seriyasida yuzaga keladigan porlashlar seriyasini tan olishga qaratilgan. Bundan tashqari, u mashinani o'rganish bo'yicha ko'plab tadqiqotlarni va inson xatti-harakatlarini to'liq tushunishni o'z ichiga oladi. Masalan, u inson harakatini kuzatish [9], imo-ishoralarni aniqlash [10] va yuzni tanishni [11] o'z ichiga oladi. Shunga qaramay, CSLR vazifalarini bajarishda bir qancha qiyinchiliklar mavjud.

Birinchidan, CSLR uchun ma'lumotlarni yig'ish va izohlash qimmatga tushadi [12]. Bu, ehtimol, uni ishlab chiqishda duch keladigan muammolardan biri, chunki CSLR katta tarmoqda ishtirok etadi va ma'lumotlar miqdori ishlashga kuchli ta'sir qiladi [13]. Bundan tashqari, imo-ishora tili uchun bir nechta mavjud ma'lumotlar to'plami zaif izohlangan [12,14,15]. Ushbu muammoni hal qilish uchun ko'plab tadqiqotlar tarmoq arxitekturasiga moslashtirish va xususiyatni ekstraktor modulini qo'llash bilan bir qatorda zaif nazorat qilinadigan yondashuvdan foydalangan [12].

Ikkinchidan, ISLR bilan solishtirganda, CSLR ancha murakkab. Bir nechta xususiyatlardan foydalangan holda etarli ma'lumot olinadi; Bu avvalgi ishlarda [16-18] xabar qilinganidek, bitta xususiyatdan foydalanishdan ko'ra yaxshiroq ishlashga erishishi isbotlangan. Ushbu ko'p xususiyatlar asosiy xususiyatdan iborat bo'lib, u eng yuqori aniqlikka erishadigan tana tasviri va individual ishlash uchun kamroq aniqlikka ega bo'lgan poza, bosh, chap qo'l va o'ng qo'l kabi qo'shimcha funktsiyalardan iborat [17,18]. Katta hajmdagi ma'lumotlarga ega bo'lgan katta tarmoqni o'qitish ko'p vaqt talab etadi [13]. Kirish oqimini qo'shish, shuningdek, o'qitish vaqtini oshiradi, tasvirga asoslangan qo'shimcha funktsiyalardan foydalanish esa xarajatlarni oshiradi [19]. Shuning uchun biz samarali mashq qilishimiz uchun muhim xususiyatlarni tanlashimiz kerak.

Xitoy o'ti cistanche

Uchinchidan, video kiritishda ketma-ketlikda ko'p sonli tasvirlar mavjud. Ba'zi tasvirlar tez harakat tufayli qo'l shakli noaniq bo'lib, noto'g'ri ma'lumotlarga olib kelishi mumkin. Shuning uchun, bizning taklif etayotgan modelimiz muhim ma'lumotlarni tanlashda yordam berish uchun [20] ga asoslangan o'z-o'ziga e'tibordan foydalanadi. Bundan tashqari, [21,22] tomonidan tasdiqlangan o'z-o'ziga e'tibor, samaradorlikni oshirishga ta'sir qiladi.

Shuning uchun biz barcha muammolarni hal qilish uchun yangi fazoviy-zamoniy diqqatli ko'p funksiyali (STAMF) nomli yangi modelni taklif qilamiz. Biz oldingi ishlarni kuzatib bordik [17,23], ular CSLR uchun zaif izoh muammolari bilan ishlashi isbotlangan. Ular uchta asosiy komponentdan foydalangan holda modelni quradilar: birinchisi fazoviy modul, ikkinchisi vaqtinchalik modul va uchinchisi ketma-ketlikni o'rganish moduli. Biz CSLR vazifalarini bajarish uchun asosiy nuqta xususiyatlari bilan birga toʻliq kadr funksiyasidan foydalangan holda samarali va samarali koʻp funksiyali kiritishni taklif qilamiz. To'liq kadrli funksiya asosiy xususiyat sifatida tana tasvirini va qo'shimcha xususiyat sifatida asosiy nuqta xususiyatlarini ifodalaydi. Asosiy xususiyat - bu tananing pozasi, shu jumladan qo'l pozasining tafsilotlari. Ushbu tana pozasi eng samarali qo'shimcha xususiyatdir, chunki ba'zi ishlarda u to'liq kadrdan keyin eng yuqori aniqlikka erishganligi isbotlangan [17,18]. Shuningdek, biz muhim xususiyatni qo'lga kiritish va samaradorlikni oshirish uchun ketma-ketlikni o'rganishga yordam berish uchun [20] ga asoslangan o'z-o'ziga e'tiborni ishlatadigan diqqat modulidan foydalanamiz.

Ushbu qo'lyozmaning hissasi quyidagicha umumlashtiriladi: • Biz yakuniy natijaga hissa qo'shadigan muhim vaqt nuqtalarini olish uchun ketma-ketlik moduliga yangi vaqtinchalik e'tiborni kiritamiz; • Biz asosiy xususiyat sifatida kadrning RGB qiymatidan to‘liq kadr funksiyasidan iborat multifunksiyani va modelni tanib olish unumdorligini oshirish uchun qo‘shimcha xususiyat sifatida qo‘l shakli detali bilan tana pozasini o‘z ichiga olgan asosiy nuqta funksiyalarini taqdim etamiz; • Biz taklif qilayotgan STAMF modelimiz tajribalar orqali ikkala CSLR benchmark ma'lumotlar to'plamida ham eng zamonaviy modellardan ustun ekanligini ko'rsatish uchun WER ko'rsatkichidan foydalanamiz.

Mening yonimda Cistanche qo'shimchasi - Xotirani yaxshilang

2. Tegishli ishlar

Texnologiyada bir qancha yutuqlar bo'ldi va SLR bo'yicha ko'plab tadqiqotlar olib borildi. Oldingi tadqiqotlar [24-27] har bir so'z uchun segmentatsiyaga ega bo'lgan ISLR dan foydalanish imkoniyatini o'rganib chiqdi. So'nggi yillarda chuqur o'rganishga asoslangan usullar kuchli vizual tasvirlash uchun konvolyutsion tarmoqlardan foydalangan holda 2D [28,29] yoki 3D [30,31] yordamida xususiyatlarni ajratib olish uchun ishlatilgan. Imo-ishora tilini aniqlash bo'yicha olib borilgan dastlabki tadqiqotlarning aksariyati RGB, chuqurlik xaritalari va skeletlari kabi multimodal xususiyatlarga ega [30-32] ISLR-ga asoslangan bo'lib, ular yaxshi ishlash imkonini beradi.

Hozirgi vaqtda CSLR ko'proq mashhur bo'lib ketdi, garchi u har bir so'z orasida aniq bo'linmagan bo'lsa ham. Dastlabki ishlar ketma-ketlik maqsadini yaratish uchun CNN xususiyatini ajratib oluvchi [6,33] va HMM [34] dan foydalanadi. CSLR tizimlari uchun so'nggi tadqiqotlar [17,23] muammolarni aniqlash vazifasini bajarishda uchta asosiy bosqichni o'z ichiga oladi. Birinchidan, ular fazoviy xususiyatni ajratib olishni, so'ngra vaqtinchalik segmentatsiyani va nihoyat til modeli bilan jumlalarni sintez qilishni o'tkazdilar [35] yoki ular ketma-ketlikni o'rganishdan foydalanganlar [17,23]. Ushbu ketma-ketlikni o'rganish Bi-LSTM va CTC-dan video ketma-ketlikdagi belgilar porlashi o'rtasidagi munosabatni aniqlash uchun ishlatilgan. Garchi u imo-ishoralarning yorqinligini aniqlash uchun ajratilmagan video ketma-ketligiga ega zaif izohdan foydalansa ham, bu yondashuvlar istiqbolli natijalarni ko'rsatdi.

Biroq, ko'p xususiyatli yondashuvni amalga oshirgan eng so'nggi tegishli CLSR tadqiqoti [17] bir vaqtning o'zida besh xususiyatdan foydalangan. Ko'p funksiyali yondashuv kamroq xususiyatlardan foydalanishga qaraganda og'irroqdir [19]. Ushbu yondashuv, shuningdek, tezkor harakat tufayli qo'lning loyqa shakli kabi noaniq ma'lumotlarga ega bo'lgan video ketma-ketligidagi shovqinli kadrlarni boshqara olmaydi. Bundan tashqari, RNN-ga asoslangan ketma-ketlikni o'rganishga tayanish uzoq ketma-ketliklar bilan bog'liq muammolarga duch kelishi va global kontekstni yo'qotishi mumkin [20].

Mening yonimda Cistanche qo'shimchasi - Xotirani yaxshilang

Joriy tadqiqot global kontekstni o'rganish uchun uzoqroq ketma-ketlikni boshqarishi mumkin bo'lgan o'z-o'ziga e'tibor mexanizmini [21,22] qo'shish orqali ishlashni yaxshilashga qaratilgan. O'z-o'ziga e'tibor erta tadqiqotlarga asoslanadi [20], bu o'z-o'ziga e'tibor uzoq qaramliklarni engish qobiliyatiga ega ekanligini ko'rsatdi. Biroq, bu o'z-o'ziga e'tibor, uzoq qaramlik bilan uzoqroq yo'lga nisbatan qisqaroq yo'lni o'rganish osonroqdir. Oldingi CLSR ishlarida [21,22] o'z-o'ziga e'tibor tarmoqqa ushbu xususiyatni yanada samarali o'rganishga yordam berishi mumkin edi.

Shuning uchun, biz ushbu maqolada yangi fazoviy-zamoniy diqqatli ko'p xususiyatli modelni taqdim etamiz. Ushbu taklif qilingan model muhim xususiyatlarni samarali ajratib oladi va ko'p funksiyadan o'z-o'ziga e'tibor berish mexanizmidan foydalangan holda muhim ma'lumotlarni berish orqali ketma-ketlikni yaxshiroq o'rganadi. Barcha jarayonlar end-to-end yondashuvida amalga oshiriladi.

3. Taklif etilayotgan usul

Ushbu bo'limda CSLR uchun taklif qilingan modelimizning asosiy texnikasi batafsil bayon etilgan. Shuning uchun biz ushbu bo'limni taklif qilayotgan modelimiz haqida umumiy ma'lumotni tushuntirish bilan boshlaymiz. Bundan tashqari, biz har bir asosiy komponent, jumladan, fazoviy modul, vaqtinchalik modul va ketma-ketlikni o'rganish moduli haqida batafsil ma'lumot beramiz. Bundan tashqari, biz modelni yaxshiroq o'rganishga yordam berish uchun taklif qilingan e'tibor modulimizni ham tushuntiramiz. Nihoyat, biz taklif qilingan modelga o'qitish va xulosa chiqarish uchun asosni birlashtira olamiz.

3.1. Ramkaga umumiy nuqtai

Video kiritishni hisobga olgan holda, bizning taklif qilayotgan modelimiz mos keladigan belgini to'g'ri porloq jumlaga bashorat qilishga qaratilgan. Birinchi modul videoning har bir T kadri uchun toʻliq kadr va asosiy nuqta funksiyalari kabi bir nechta fazoviy xususiyatlarni yaratadi. Keyinchalik, vaqtinchalik modul bizga ikkala oqim uchun ramkalar orasidagi fazoviy xususiyatlarning vaqtinchalik korrelyatsiyasini olish imkonini beradi. Yakuniy bosqich sifatida fazoviy va vaqtinchalik tarmoqlar ketma-ketlikni o'rganish va xulosa chiqarish uchun ikki tomonlama uzoq muddatli xotira (Bi-LSTM) va CTC bilan bog'langan. Keyinchalik, biz asosiy komponentlarimizni batafsilroq va ketma-ket tushuntiramiz. Biz taklif qilayotgan arxitekturaning umumiy ko'rinishi 1-rasmda ko'rsatilgan.

Shakl 1. Taklif etilayotgan usulning umumiy arxitekturasi uchta komponentdan iborat: fazoviy modul, vaqtinchalik modul va ketma-ketlikni o'rganish moduli. Fazoviy modul avval kadrlar bo'yicha xususiyatlarni ajratib olish uchun tasvir ketma-ketligini oladi va keyin vaqtinchalik xususiyatlarni chiqarish uchun vaqtinchalik modulni qo'llaydi. Keyinchalik, so'zlarni bashorat qilish va uni jumlaga aylantirish uchun vaqtinchalik xususiyatlar ketma-ketlikni o'rganish moduliga yuboriladi.

3.2. Fazoviy modul

Fazoviy modul 2-rasmda ko'rsatilganidek, to'liq kadr funksiyasi va asosiy nuqta xususiyatlaridan foydalanadi. Ushbu modul magistral sifatida 2D-CNN tarmoq arxitekturasidan foydalanadi va ResNet50 ko'p funksiyalarni qo'lga kiritish uchun tanlangan. ResNet50 so'nggi ResNet arxitekturasi bilan solishtirganda vaqt jihatidan ancha samarali va taqqoslanadigan natijaga ega [36,37]. RGB to'g'ridan-to'g'ri ResNet50 dan foydalanadi, kalit nuqta HRNet [38] tomonidan video kadrdan olinadi va asosiy nuqta xususiyatlarini olish uchun ResNet50 yordamida chiqariladi.

Shakl 2. Fazoviy modul arxitekturasi ko'p oqimli kiritishdan foydalanadi. RGB oqimi to'liq kadrli xususiyat sifatida va kalit nuqtalar oqimi asosiy nuqta xususiyati sifatida.

3.2.1. Toʻliq kadr funksiyasi

Biz oldindan ishlov berish bosqichlarimizni RGB ma'lumotlariga qo'lladik va keyin ma'lumotlarimizni modelga kiritdik. Keyin biz ularni arxitekturamizga to'liq ramka sifatida kiritamiz. 3-rasmda chap tomonda asl RGB tasviri va o'ng tomonda kesilgan tasvir ko'rsatilgan. Kesilgan rasm model tomonidan kiritish sifatida ishlatiladi. Bu rasmning kamroq muhim qismlarini kamaytiradigan va imzolovchiga ko'proq e'tibor qaratadigan dastlabki ishlov berish bosqichini ko'rsatadi. Bu kesish maʼlumotlar toʻplamini koʻpaytirish uchun [12] dan tasodifiy kesish usulidan foydalanadi. To'liq kadr xususiyati ResNet50 yordamida ketma-ketlikdagi har bir kadr uchun kesilgan tasvirdan olinadi.

Shakl 3. RGB tasviridan foydalangan holda to'liq kadrli funksiya, (chapdagi rasm) asl tasvir, (o'ngdagi rasm) esa tavsiya etilgan model bilan sozlash uchun kesilgan tasvirdir.

3.2.2. Asosiy nuqta xususiyatlari

Biz fazoviy moduldagi asosiy nuqta xususiyatlarini video kiritishdagi har bir kadr uchun RGB ma'lumotlaridan ajratib oldik. Asosiy nuqta xususiyatlarining sifati bizning taklif qilayotgan modelimizda muhim rol o'ynaydi, shuning uchun biz HRNet kabi ishonchli yondashuvdan foydalanishimiz kerak [38]. Biz 133 ta asosiy nuqtani baholash uchun oldindan o'qitilgan HRNet [38] dan foydalandik va uning natijasi bo'yicha 133 ta asosiy nuqtadan 27 tasidan foydalandik. 4-rasmda ko'rsatilganidek, chap tomoni asl yuqori tananing asosiy nuqtasi, o'ng tomoni esa tanlangan 27 ta yuqori tananing asosiy nuqtasidir. Ushbu 27 ta asosiy nuqta bilaklar, tirsaklar, elkalar, bo'yin, qo'llar va barmoqlarni o'z ichiga oladi.

4-rasm. PHOENIX-RWTH ma'lumotlar to'plamining asosiy nuqta xususiyatlari [33,39], (chap rasm) RGB tasviridan ajratib olish va (o'ngdagi rasm) taklif qilingan model tomonidan ishlatiladigan tanlangan kalit nuqtadir.

3.3. Vaqtinchalik modul

Vaqtinchalik modul fazoviy moduldan fazoviy vaqt ma'lumotlarini o'rganishga qaratilgan. Vaqtinchalik modullar har bir oqim uchun stacked Temporal Pooling tomonidan tuzilgan. 5-rasmda ko'rsatilganidek, Vaqtinchalik birlashtirish moduli ketma-ket kirishlardan xususiyatlarni ajratib olish uchun vaqtinchalik konvolyutsiya qatlami va birlashtiruvchi qatlamdan iborat.

Figure 5.

Shakl 5. Vaqtinchalik modul arxitekturasi stacked 1D-CNN va diqqat moduli bilan o'rnatilgan birlashtiruvchi qatlamdan iborat. Yig'ilgan qatlamlarning oxirida birlashtirilgan ikkala xususiyat oqimlari uchun parallel ravishda ishlang va ketma-ketlik uzunligi to'rt baravar kichik bo'lgan yagona vaqtinchalik xususiyatni yarating.

Kirish - oldingi bosqichdagi fazoviy ko'p funksiyalar ro'yxati. Vaqtinchalik xususiyat vaqtinchalik konvolyutsiya qatlami yordamida olinadi, ya'ni bir xil kirish va chiqish uzunliklariga ega bo'lgan yagona 1D konvolyutsion qatlam, so'ngra o'lchamni yarmigacha kamaytiradigan yagona birlashtiruvchi qatlam. Oldingi ishlarga ko'ra, bu ikki stacked temporal pooling qatlamlaridan foydalanish eng yaxshi konfiguratsiya hisoblanadi [12]. Har bir vaqtni birlashtirishdan so'ng, biz 3.4-bo'limda batafsil bayon qilinadigan diqqat modulini joylashtiramiz. Oxir-oqibat, biz ikkala oqimdan vaqtinchalik birlashmaning chiqishini birlashtiramiz.

3.4. Diqqat moduli

Videoda tasvirning ba'zi qismlari ba'zan loyqa bo'ladigan bir nechta ramkalar mavjud. RTWH-PHOENIX ma'lumotlar to'plami [33,39] CSL ma'lumotlar to'plamiga qaraganda ko'proq nuqsonli kadrlarga ega [8,40,41]. Bu harakat juda tez bo'lsa, loyqa tasvirni yaratganda sodir bo'ladi va natijada kalit nuqta noto'g'ri joylashadi. Ushbu ramka nuqsonli deb hisoblanadi va RGB va asosiy nuqta xususiyatlarining noto'g'ri talqin qilinishiga olib kelishi mumkin. 6-rasmda RTWH-PHOENIX ma'lumotlar to'plamidagi nuqsonli ramkalar tasviri ko'rsatilgan [33]. Ushbu muammoni hal qilish uchun biz diqqat qatlamini qo'shdik.

6-rasm. RWTH-PHOENIX ma'lumotlar to'plamidagi nuqsonli ramkalar tasviri [33,39]. Qo'l sohasidagi ba'zi asosiy nuqtalar loyqa tasvirlar tufayli noto'g'ri holatda.

CTC algoritmidan foydalanib, yo'lni uning yorlig'i bilan tekislash bo'sh yorliq yordamida va takroriy belgilarni olib tashlash orqali amalga oshiriladi. CTC porloq chegarani ajrata olmasa, porloq chegaralarni emas, balki bo'sh teglarni bashorat qilishni afzal ko'radi, ammo natijalarning hech biri ishonchli emas. Bu tarmoqni tahlil qilish, o'rganish va bashorat qilishda natijalarni oshirish uchun CTC dan foydalanishga olib keladi [42,43]. Odatda, CTC yo'qotilishi asosiy kadrlarni qidiradi va oxirgi natija bo'sh yorliq yoki bo'sh bo'lmagan yorliq bo'lish ehtimoli yuqori bo'lgan ma'lum bir kalit kadrni bashorat qilishdir. Agar yaltiroq bir xil yorliqni yoki bo'sh yorliqni ketma-ket bashorat qilsa, u bir xil chiqishga olib keladi. Biroq, agar bir xil yorliq orasiga qo'shish yorlig'i bo'lsa, hatto bitta xato bo'lsa ham, bu juda katta yo'qotishga olib keladi. Bu erda diqqat qatlamining qo'shilishi ketma-ket o'rganish uchun foydalanishdan oldin muhim vaqtinchalik ketma-ketlikni tanlashga yordam beradi.

Diqqat moduli ko'p boshli o'z-o'ziga e'tibor berish mexanizmidan foydalanadi [20]. Ko'p boshli modul bir vaqtning o'zida bir nechta parallel diqqat mexanizmlarini ishlatish uchun ishlatiladi. Ko'p boshli e'tibor qisqa muddatli yoki alohida boshdagi uzoq muddatli bog'liqliklarga e'tibor qaratish uchun mustaqil ravishda ishlaydi. Keyin har bir chiqish chiziqli ravishda birlashtiriladi va kerakli shaklga aylanadi.

Shu bilan birga, ko'p boshli o'z-o'ziga e'tibor mexanizmi kuzatuvlar tarixiga qarab, bir nechta vakillik pastki bo'shliqlaridan ma'lumotlarga g'amxo'rlik qiladi. Oddiylik uchun biz kirish ketma-ketliklarini X deb belgilaymiz. Matematik jihatdan, bitta boshli diqqat modeli uchun X t − T plus 1:t=[X t − T plus 1, · · ·, X t kiritilishi berilgan. ] ∈ RT × N × P, uchta kichik bo'shliq olinadi, ya'ni so'rov pastki fazosi Q ∈ RN ×dq, kalit pastki fazosi K ∈ RN × dk va qiymat pastki fazosi V ∈ RN × dv. Yashirin pastki fazoni o'rganish jarayonini quyidagicha shakllantirish mumkin: [20]:

Q=XWQ, K=XWK, V=XWV,

Keyin, masshtablangan nuqta-mahsulot e'tibori e'tiborning chiqishini hisoblash uchun ishlatiladi [20]:

Diqqat(Q, K, V)=shuning uchun f tmaxQKT/ p dkV,

Bundan tashqari, agar bizda bir vaqtning o'zida bir nechta kiritilgan ma'lumotlarga amal qiladigan bir nechta boshlar bo'lsa, biz bir vaqtning o'zida yanada mosroq natijalarga erishishimiz mumkin. Yakuniy bosqich - bu barcha boshlarni birlashtirish va yakuniy ballni hisoblash uchun ularni qayta loyihalashdir [20]:

Multihead(Q,K,V)=Concat(head1,..., heads )WO,

bosh=Diqqat(Qi,Ki,Vi),

Bu yerda Qi=XWQ i , Ki=XWVi va WO ∈ R hd × dmodel. Nihoyat, u xususiyatlar ketma-ketligidan muhim qismini tanlashi mumkin, chunki ketma-ketlikdagi barcha ma'lumotlar muhim emas.

7-rasmda ko'rsatilganidek, biz diqqat modulini bir nechta konfiguratsiyalarda ishlatamiz. Birinchi diqqat moduli fazoviy modulning oxirida, ikkinchi va uchinchi diqqat modullari esa vaqtinchalik modulda joylashgan. Erta temporal modul deb ataladigan ikkinchi e'tibor moduli kirish sifatida vaqtinchalik birlashtirishning birinchi blokidan keyin joylashtiriladi, uchinchi vaqtinchalik e'tibor moduli esa kech vaqtinchalik e'tibor moduli vaqtinchalik birlashtirishning ikkinchi blokidan keyin joylashtiriladi.