Zipf's Law Text Analysis гэж юу вэ

Агуулгын хүснэгт:

Zipf's Law Text Analysis гэж юу вэ
Zipf's Law Text Analysis гэж юу вэ

Видео: Zipf's Law Text Analysis гэж юу вэ

Видео: Zipf's Law Text Analysis гэж юу вэ
Видео: Zipf's Law 2024, Дөрөвдүгээр сар
Anonim

Хайлтын системүүд жил бүр ухаалаг болж байна. Хэрэв тэд саяхан болтол түлхүүр үгсийн нягтрал, ач холбогдлын нэлээд сэгсрэмтгий үзүүлэлтийг харгалзан үздэг байсан бол одоо өгүүллийг оргилд хүргэх хамгийн чухал нөхцлүүдийн нэг нь текстийн байгалийн жам болжээ. Үүнийг Zipf-ийн хуулийн дагуу шинжилгээг ашиглан тооцоолж болно.

Zipf's Law Text Analysis гэж юу вэ
Zipf's Law Text Analysis гэж юу вэ

Zipf-ийн хуулийн дагуу текстийг хэрхэн шинжилдэг вэ?

Хайлтын системийн механизмууд нь зохиомлоор үүсгэсэн текстийг байгалийн бус гэж хүлээн зөвшөөрч, хайлтын үр дүнгийн тэргүүлэх байр сууриудаас хасдаг. Текстийн байгалийн түвшинг хэрхэн тодорхойлох вэ? Америкийн хэл судлаач Жорж Зипф текстийн байгалийн жам ёсны хуулийг гаргасан бөгөөд энэ дагуу текст дэх үгийн давтамж нь түүний тооноос урвуу хамааралтай байдаг. Өөрөөр хэлбэл, хоёр дахь үг нь эхнийхээс хагас дахин их тохиолддог, гурав дахь нь эхнийхээс гурав дахин ховор тохиолддог гэх мэт.

Энэхүү энгийн математикийн аргад үндэслэн та аливаа текстийг байгалийн шинж чанарыг шинжлэх боломжтой. Энэ дүрмийг 30-50 хувьтай нийцүүлсэн текстийг байгалийн гэж үздэг. Илүү өндөр байх тусам текст нь илүү байгалийн шинжтэй харагдаж байна. Интернет дээр Zipf-ийн хуулийн дагуу текстийг шинжлэхэд ашиглаж болох тусгай онлайн нөөцүүд аль хэдийнээ байдаг. 30-аас доош хувьтай индекс бүхий нийтлэлийг хайлтын системээс татгалздаг.

Zipf-ийн дагуу текстийн дүн шинжилгээний үр дүнд хэрхэн итгэж болох вэ?

Zipf's Law текстийн анализ нь жирийн уугуул хэлээр ярьдаг хүмүүсийн үг ашиглах онцлог шинжийг харгалзан үздэг нийтлэг статистик шинжилгээ юм. Мэдээжийн хэрэг, дүрмийн хувьд үл хамаарах зүйлүүд байдаг. Хэрэв та алдартай зохиолчдын зарим бүтээлийг Zipf-ийн хуулийн дагуу үнэлэхийг оролдвол гэрчлэл нь маш их гайхшрал төрүүлж болзошгүй юм. Гэсэн хэдий ч сонгодог хэл нь дундаж статистик ярианд багтах хандлагатай байдаггүй.

Zipf-ийн дагуу текстийг шинжлэх нь вэбсайтыг сурталчлахтай холбоотой бүх хүмүүст шаардлагатай байдаг. Эдгээр нь копирайтер, вэб програмист, SEO оновчлогч юм. Текстийн байгалийн байдал өндөр байгаа нь нийтлэлийг хайлтын системийн дээд хэсэгт байрлуулах магадлалтай юм. Zipf's Law анализ сайтай текст бичихийн тулд түлхүүр үгсийг том завсарлагатайгаар ашиглах хэрэгтэй гэдгийг санах хэрэгтэй. Ихэнх тохиолдолд үйлчлүүлэгчид гүйцэтгэгчдээс тодорхой түлхүүр үгс, тодорхой давтамжтайгаар текст үүсгэхийг шаарддаг. Ийм текст Zipf-ийн дүн шинжилгээний дагуу бага оноо авах нь дамжиггүй. Техникийн зөв даалгавар бол үйлчлүүлэгч зөвхөн текстийг зохиогчийн текстэд ашигласан тоогоор хязгаарлахгүйгээр зөвхөн түлхүүрийг өөрсдөө өгөх явдал юм. Дараа нь текстээс аль үгийг илүү олон удаа олохыг шийдэж, хэрэглээний давтамж дээр үндэслэн үлдсэн бүх зүйлийг нийтлэлд оруулаарай.

Зөвлөмж болгож буй: