Piskevit

Bu proje, Türkçe dilinde çalışan büyük dil modellerinin güvenliğini artırmak amacıyla geliştirilmiştir. Büyük dil modellerinin zararlı veya istenmeyen çıktılar üretme riski bulunduğundan, özellikle Türkçe dil modelleri için güvenli veri setleri ve benchmark framework'leri oluşturulması kritik öneme sahiptir. #Acıkhack2024TDDİ

Proje Hedefleri

Türkçe dilinde güvenli dil modelleri geliştirmek.
Alignment benchmark framework'ü oluşturarak modellerin güvenliğini ölçmek.
Elle oluşturulmuş ve çevrilmiş veri setleri ile model eğitimi gerçekleştirmek.
Türkçe diline özgü güvenli veri setleri oluşturarak modeli daha güvenli hale getirmek.

Proje İş Akışı

Faz I: Model eğitimi için elle veri hazırlama çalışmaları ve test edilecek modellerin belirlenmesi.
Faz II: İngilizceden Türkçe'ye çevrilecek veri setlerinin hazırlanması ve çeviri işlemlerinin başlatılması.
Faz III: Çevrilen verilerle modeller eğitilip veri kalitesinin test edilmesi.
Faz IV: Benchmark veri seti ve framework'ünün oluşturulması ve modellerin eğitimi.
Faz V: Benchmarkların gerçekleştirilmesi ve genel instruct girdilerine tepkilerin ölçülmesi.

Veri Seti

Bu projede kullanılan veri setleri, İngilizce model çıktılarını Türkçeye çevirmek ve elle yazılmış zararlı içeriklerden oluşmaktadır. Veri setimiz, özellikle cinsiyetçilik, ırkçılık ve homofobi gibi zararlı içeriklere karşı güvenli yanıtlar üreten veriler içermektedir.

Kullanılan Modeller

Proje kapsamında kullanılan modeller:

Koç-Digital
YTÜ-Cosmos-Llama
CAL-Llama

Bu modeller, oluşturulan güvenli veri setleriyle eğitilmiştir.

Benchmark

Eğitilen modelleri test etmek için üç yöntem kullanılmıştır:

İnsan Değerlendirmesi
BERT Sınıflandırma Modeli
Rouge Skoru

Benchmark sonuçlarına göre modellerin güvenli ve güvensiz yanıt verme oranları aşağıdaki gibidir:

Model	UnSafe (Güvensiz)	safe (Güvenli)
Koç-Digital	%48	%96
YTÜ-Cosmos-Llama	%35	%94
CAL-Llama	%8	%93

Sonuçlar ve Bulgular

Alignment sürecinden geçirilmemiş Türkçe modeller ileride daha büyük riskler oluşturabilir.
Alignment verileri modelin genel instruct girdilerine karşı da güvenli yanıtlar vermesini sağlar.
Güvenli yapay zeka, daha güvenli bir dünya için kritik öneme sahiptir.

Proje Yol Haritası

Benchmark framework'ünün Huggingface'de leaderboard olarak sunulması.
Çalışmanın akademik bir makale olarak yayımlanması.
Sentetik veri üretimi ile veri setinin derinleştirilmesi ve farklı dillerde denenmesi.

Name		Name	Last commit message	Last commit date
Latest commit History 33 Commits
Benchmark		Benchmark
Data		Data
ModelTestDemo		ModelTestDemo
Model_Training		Model_Training
Models		Models
Translation		Translation
unsloth_recs		unsloth_recs
Önemli ! Okuyunuz.		Önemli ! Okuyunuz.
README.md		README.md
Serbest Kategori.pdf		Serbest Kategori.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Piskevit

Proje Hedefleri

Proje İş Akışı

Veri Seti

Kullanılan Modeller

Benchmark

Sonuçlar ve Bulgular

Proje Yol Haritası

About

Releases 2

Packages

Languages

TheSenate61/piskevit-Acikhack2024TDDI

Folders and files

Latest commit

History

Repository files navigation

Piskevit

Proje Hedefleri

Proje İş Akışı

Veri Seti

Kullanılan Modeller

Benchmark

Sonuçlar ve Bulgular

Proje Yol Haritası

About

Topics

Resources

Stars

Watchers

Forks

Releases 2

Packages 0

Languages

Packages